Τρίτη, 31 Μαρτίου 2020

Μεταφράζοντας τον εγκέφαλο. Translating the brain

Οι επιστήμονες έκαναν ακόμη ένα βήμα για τη δημιουργία μηχανών που καταλαβαίνουν τι λέει ένας άνθρωπος, αναλύοντας μόνο τα εγκεφαλικά κύτταρά του και μετατρέποντας, στη συνέχεια, αυτόματα, σε γραπτό κείμενο, τις προτάσεις του. Researchers in US tracked the neural data from people while they were speaking. Computer-generated image of a brain. The team found the accuracy of the latest system was far higher than previous approaches. Photograph: Jezper/Alamy

Ερευνητές στις ΗΠΑ δημιούργησαν έναν αλγόριθμο τεχνητής νοημοσύνης, ο οποίος μπορεί να αποκωδικοποιήσει τη νευρωνική δραστηριότητα του εγκεφάλου και να τη «μεταφράσει» σε πραγματικό χρόνο σε προτάσεις με μεγάλη ακρίβεια (σφάλμα μόνο 3%), κάτι που επιτυγχάνεται για πρώτη φορά σε αυτόν τον βαθμό.

Οι διεπαφές εγκεφάλου-μηχανής (brain-machine interfaces) είχαν έως τώρα περιορισμένη επιτυχία στο να αποκωδικοποιήσουν τη σκέψη με βάση μόνο την εγκεφαλική δραστηριότητα και έτσι να δημιουργήσουν τεχνητή ομιλία, έχοντας πετύχει ακρίβεια αρκετά μικρότερη από τη φυσική ομιλία, ενώ μέχρι σήμερα δεν είχαν καταφέρει να «διαβάσουν» ολόκληρες προτάσεις παρά μόνο λέξεις.

Αυτήν τη φορά, οι ερευνητές, με επικεφαλής τους Τζόζεφ Μέικιν και Έντουαρντ Τσανγκ του Πανεπιστημίου της Καλιφόρνια-Σαν Φρανσίσκο, που έκαναν τη σχετική δημοσίευση στο περιοδικό νευροεπιστήμης «Nature Neuroscience», αξιοποίησαν τις τελευταίες εξελίξεις στο πεδίο της μηχανικής μετάφρασης για να εκπαιδεύσουν τεχνητά νευρωνικά δίκτυα να μετατρέπουν απευθείας τα σήματα των νευρώνων σε προτάσεις.

The decoding pipeline. Each participant read sentences from one of two data sets (MOCHA-TIMIT, picture descriptions) while neural signals were recorded with an ECoG array (120–250 electrodes) covering peri-Sylvian cortices. The analytic amplitudes of the high-γ signals (70–150 Hz) were extracted at about 200 Hz, clipped to the length of the spoken sentences, and supplied as input to an artificial neural network. The early stages of the network learn temporal convolutional filters that, additionally, effectively downsample these signals. Each filter maps data from twelve-sample-wide windows across all electrodes (e.g., the green window shown on the example high-γ signals in red) to single samples of a feature sequence (highlighted in the green square on the blue feature sequences); then slides by twelve input samples to produce the next sample of the feature sequence; and so on. One hundred feature sequences are produced in this way, and then passed to the encoder RNN, which learns to summarize them in a single hidden state. The encoder RNN is also trained to predict the MFCCs of the speech audio signal that temporally coincide with the ECoG data, although these are not used during testing (see text for details). The final encoder hidden state initializes the decoder RNN, which learns to predict the next word in the sequence, given the previous word and its own current state. During testing, the previous predicted word is used instead.

Τέσσερις εθελοντές, στο κρανίο των οποίων είχαν εμφυτευθεί ηλεκτρόδια καταγραφής της νευρωνικής δραστηριότητας, διάβαζαν φωναχτά προτάσεις κειμένου. Το σύστημα τεχνητής νοημοσύνης έμαθε έτσι να συσχετίζει τα νευρωνικά σήματα με την ομιλία και τα συστατικά των λέξεων (φωνήεντα, σύμφωνα κ.ά.), ενώ στη συνέχεια έμαθε να «δένει» τις λέξεις σε προτάσεις.

Η ακρίβεια του αλγόριθμου είναι ανάλογη εκείνης που χρησιμοποιούν τα «έξυπνα» επαγγελματικά υπολογιστικά συστήματα αυτόματης μετατροπής της ομιλίας σε γραπτό κείμενο. Πάντως, σύμφωνα με τους ερευνητές, το σύστημα χρειάζεται ακόμη περαιτέρω βελτίωση, καθώς έως τώρα δεν μπορεί να ξεπεράσει τις 30 έως 50 προτάσεις με βάση ένα λεξιλόγιο έως 250 λέξεων. Το επόμενο βήμα θα είναι να μπορεί το σύστημα να μετατρέπει σε προτάσεις τη νευρωνική δραστηριότητα ανθρώπων που απλώς σκέφτονται και δεν μιλάνε.