Οι
επιστήμονες έκαναν ακόμη ένα βήμα για τη δημιουργία μηχανών που καταλαβαίνουν
τι λέει ένας άνθρωπος, αναλύοντας μόνο τα εγκεφαλικά κύτταρά του και
μετατρέποντας, στη συνέχεια, αυτόματα, σε γραπτό κείμενο, τις προτάσεις του. Researchers
in US tracked the neural data from people while they were speaking. Computer-generated
image of a brain. The team found the accuracy of the latest system was far
higher than previous approaches. Photograph: Jezper/Alamy
Ερευνητές
στις ΗΠΑ δημιούργησαν έναν αλγόριθμο τεχνητής νοημοσύνης, ο οποίος μπορεί να
αποκωδικοποιήσει τη νευρωνική δραστηριότητα του εγκεφάλου και να τη
«μεταφράσει» σε πραγματικό χρόνο σε προτάσεις με μεγάλη ακρίβεια (σφάλμα μόνο
3%), κάτι που επιτυγχάνεται για πρώτη φορά σε αυτόν τον βαθμό.
Οι
διεπαφές εγκεφάλου-μηχανής (brain-machine interfaces) είχαν έως τώρα περιορισμένη επιτυχία στο
να αποκωδικοποιήσουν τη σκέψη με βάση μόνο την εγκεφαλική δραστηριότητα και
έτσι να δημιουργήσουν τεχνητή ομιλία, έχοντας πετύχει ακρίβεια αρκετά μικρότερη
από τη φυσική ομιλία, ενώ μέχρι σήμερα δεν είχαν καταφέρει να «διαβάσουν»
ολόκληρες προτάσεις παρά μόνο λέξεις.
Αυτήν
τη φορά, οι ερευνητές, με επικεφαλής τους Τζόζεφ Μέικιν και Έντουαρντ Τσανγκ
του Πανεπιστημίου της Καλιφόρνια-Σαν Φρανσίσκο, που έκαναν τη σχετική
δημοσίευση στο περιοδικό νευροεπιστήμης «Nature Neuroscience», αξιοποίησαν τις τελευταίες εξελίξεις στο
πεδίο της μηχανικής μετάφρασης για να εκπαιδεύσουν τεχνητά νευρωνικά δίκτυα να
μετατρέπουν απευθείας τα σήματα των νευρώνων σε προτάσεις.
The decoding
pipeline. Each participant read sentences from one of two data sets
(MOCHA-TIMIT, picture descriptions) while neural signals were recorded with an
ECoG array (120–250 electrodes) covering peri-Sylvian cortices. The analytic
amplitudes of the high-γ signals
(70–150 Hz) were extracted at about 200 Hz, clipped to the length of the spoken
sentences, and supplied as input to an artificial neural network. The early
stages of the network learn temporal convolutional filters that, additionally,
effectively downsample these signals. Each filter maps data from
twelve-sample-wide windows across all electrodes (e.g., the green window shown
on the example high-γ signals
in red) to single samples of a feature sequence (highlighted in the green
square on the blue feature sequences); then slides by twelve input samples to
produce the next sample of the feature sequence; and so on. One hundred feature
sequences are produced in this way, and then passed to the encoder RNN,
which learns to summarize them in a single hidden state. The encoder RNN is
also trained to predict the MFCCs of the speech audio signal that temporally
coincide with the ECoG data, although these are not used during testing (see
text for details). The final encoder hidden state initializes the decoder RNN,
which learns to predict the next word in the sequence, given the previous word
and its own current state. During
testing, the previous predicted word is used instead.
Τέσσερις
εθελοντές, στο κρανίο των οποίων είχαν εμφυτευθεί ηλεκτρόδια καταγραφής της
νευρωνικής δραστηριότητας, διάβαζαν φωναχτά προτάσεις κειμένου. Το σύστημα
τεχνητής νοημοσύνης έμαθε έτσι να συσχετίζει τα νευρωνικά σήματα με την ομιλία
και τα συστατικά των λέξεων (φωνήεντα, σύμφωνα κ.ά.), ενώ στη συνέχεια έμαθε να
«δένει» τις λέξεις σε προτάσεις.
Η
ακρίβεια του αλγόριθμου είναι ανάλογη εκείνης που χρησιμοποιούν τα «έξυπνα»
επαγγελματικά υπολογιστικά συστήματα αυτόματης μετατροπής της ομιλίας σε γραπτό
κείμενο. Πάντως, σύμφωνα με τους ερευνητές, το σύστημα χρειάζεται ακόμη
περαιτέρω βελτίωση, καθώς έως τώρα δεν μπορεί να ξεπεράσει τις 30 έως 50
προτάσεις με βάση ένα λεξιλόγιο έως 250 λέξεων. Το επόμενο βήμα θα είναι να
μπορεί το σύστημα να μετατρέπει σε προτάσεις τη νευρωνική δραστηριότητα
ανθρώπων που απλώς σκέφτονται και δεν μιλάνε.
Πηγές: Nature Neuroscience - https://www.theguardian.com/science/2020/mar/30/scientists-develop-ai-that-can-turn-brain-activity-into-text - https://www.amna.gr/home/article/445283/I-techniti-noimosuni-metafrazei-tin-egkefaliki-drastiriotita