Arts Universe and Philology

Arts Universe and Philology
The blog "Art, Universe, and Philology" is an online platform dedicated to the promotion and exploration of art, science, and philology. Its owner, Konstantinos Vakouftsis, shares his thoughts, analyses, and passion for culture, the universe, and literature with his readers.

Τρίτη 29 Ιανουαρίου 2019

Εγκεφαλικά σήματα σκέψης μετατράπηκαν σε ομιλία. Engineers translate brain signals directly into speech

Το πρώτο σύστημα που μπορεί να μεταφράσει τα εγκεφαλικά σήματα της σκέψης απευθείας σε καθαρή και κατανοητή συνθετική ομιλία από υπολογιστή, δημιούργησαν ερευνητές στις ΗΠΑ. In a scientific first, neuroengineers have created a system that translates thought into intelligible, recognizable speech. This breakthrough, which harnesses the power of speech synthesizers and artificial intelligence, could lead to new ways for computers to communicate directly with the brain. It also lays the groundwork for helping people who cannot speak, such as those living with as ALS or recovering from stroke, regain their ability to communicate with the outside world. In order to train the vocoder, a computer algorithm that synthesizes speech, scientists tracked the brain patterns of patients listening to phrases spoken by different people. (SCIENCE PHOTO LIBRARY/GETTY IMAGES)

Το πρώτο σύστημα που μπορεί να μεταφράσει τα εγκεφαλικά σήματα της σκέψης απευθείας σε καθαρή και κατανοητή συνθετική ομιλία από υπολογιστή, δημιούργησαν ερευνητές στις ΗΠΑ.

Το επίτευγμα αποτελεί σημαντικό βήμα προόδου για τη δημιουργία τεχνολογίας που θα διαβάζει το μυαλό των ανθρώπων και ειδικότερα για την ανάπτυξη νευροπροσθετικών συσκευών διεπαφής εγκεφάλου-υπολογιστή, που θα επιτρέψουν σε ανθρώπους με περιορισμένη ή χωρίς καθόλου ικανότητα ομιλίας, να επικοινωνήσουν με άλλους μέσω τεχνητής φωνής.

Concept illustration. Decades of research has shown that when people speak -- or even imagine speaking -- telltale patterns of activity appear in their brain. Distinct (but recognizable) pattern of signals also emerge when we listen to someone speak, or imagine listening. Experts, trying to record and decode these patterns, see a future in which thoughts need not remain hidden inside the brain -- but instead could be translated into verbal speech at will. Credit: © adragan / Fotolia

Οι μηχανικοί και νευροεπιστήμονες του Ινστιτούτου Ζάκερμαν του Πανεπιστημίου Κολούμπια της Νέας Υόρκης, με επικεφαλής τον αναπληρωτή καθηγητή Νίμα Μεσγκαρανί, που έκαναν τη σχετική δημοσίευση στο περιοδικό «Scientific Reports», ανέπτυξαν ένα σύστημα τεχνητής νοημοσύνης που, αφού παρακολουθήσει τη δραστηριότητα στον ακουστικό φλοιό του εγκεφάλου, είναι σε θέση στη συνέχεια να ανακατασκευάσει ορισμένες από τις λέξεις που ο άνθρωπος ακούει.

Στο μέλλον, αυτή η τεχνολογία, εφόσον τελειοποιηθεί, θα βοηθήσει ανθρώπους που αδυνατούν να μιλήσουν, όπως όσους πάσχουν από αμυοτροφική πλευρική σκλήρυνση (την πάθηση του Στίβεν Χόκινγκ) ή έχουν πάθει εγκεφαλικό.

«Με τη νέα μελέτη δείξαμε ότι, με την κατάλληλη τεχνολογία, οι σκέψεις των ανθρώπων είναι δυνατό να αποκωδικοποιηθούν και να κατανοηθούν από οποιονδήποτε ακροατή», δήλωσε ο Μεσγκαρανί. Με άλλα λόγια, όπως είπε, οι σκέψεις δεν είναι ανάγκη να παραμένουν κρυμμένες μέσα στο κεφάλι μας.

Credit: Columbia University/Neural Acoustic Processing Lab

Οι ερευνητές ανέπτυξαν ένα νέο αλγόριθμο που μπορεί να συνθέσει την ομιλία, έχοντας προηγουμένως εκπαιδευθεί αναλύοντας ηχογραφήσεις ομιλιών πολλών ανθρώπων, καθώς και την εγκεφαλική δραστηριότητα εθελοντών (επιληπτικών ασθενών που έκαναν νευροχειρουργική επέμβαση), οι οποίοι άκουγαν τις φωνές άλλων.

Η ακρόαση των φωνών δημιουργεί ηλεκτρικά μοτίβα στον ακουστικό φλοιό του εγκεφάλου, τα οποία αντανακλούν την ομιλία που ο άνθρωπος ακούει. Ο αλγόριθμος (vocoder) μαθαίνει να συσχετίζει την ακουστική εγκεφαλική δραστηριότητα με την ομιλία και μετά να παράγει συνθετική φωνή. Στη συνέχεια, ένα νευρωνικό δίκτυο τεχνητής νοημοσύνης αναλαμβάνει να κάνει πιο καθαρή και κατανοητή τη συνθετική ομιλία.

«Ουσιαστικά είναι η ίδια τεχνολογία που χρησιμοποιούν τα Amazon Echo και η Siri της Apple για να απαντάνε στις ερωτήσεις μας», είπε ο Μεσγκαρανί.

Με τη βοήθεια του νευρωνικού δικτύου τεχνητής νοημοσύνης, που μιμείται τη δομή των νευρώνων στον ανθρώπινο εγκέφαλο, παράγεται τελικά μια ρομποτική φωνή, η οποία γίνεται κατανοητή στο 75% των περιπτώσεων, ποσοστό μεγαλύτερο από ανάλογες προσπάθειες στο παρελθόν.

Οι ερευνητές θέλουν να βελτιώσουν το σύστημα ώστε να «ακούει» και να συνθέτει πιο πολύπλοκες λέξεις και προτάσεις. Ο τελικός στόχος είναι η δημιουργία ενός εγκεφαλικού εμφυτεύματος, όπως αυτά που έχουν ορισμένοι ασθενείς με επιληψία, το οποίο θα μεταφράζει τις σκέψεις απευθείας σε λέξεις. Αν, για παράδειγμα, ο άνθρωπος σκέφτεται «θέλω ένα ποτήρι νερό», αλλά δεν μπορεί να μιλήσει, το εμφύτευμα θα είναι σε θέση να το πει με τη συνθετική φωνή του.

Nima Mesgarani, PhD. Associate Professor of Electrical Engineering; Principal Investigator at Columbia's Zuckerman Institute. Credit: John Abbott

«Θα πρόκειται για επανάσταση», είπε ο Μεσγκαρανί. «Ο καθένας που έχει χάσει την ικανότητα να μιλάει, είτε λόγω τραυματισμού είτε λόγω ασθένειας, θα έχει ξανά την ευκαιρία να έλθει σε επαφή με τον κόσμο γύρω του».

Πηγές: Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortexScientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z - https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech - https://www.tovima.gr/2019/01/29/science/egkefalika-simata-skepsis-metatrapikan-se-omilia/