Οι ερευνητές του UC Berkeley λένε ότι είναι οι πρώτοι παγκοσμίως που κατόρθωσαν να εκπαιδεύσουν ένα προηγμένο μοντέλο τεχνητής νοημοσύνης (AI) που χρησιμοποιεί σιωπηλή ομιλία (Silent Speech) και αισθητήρες που συλλέγουν τη μυϊκή δραστηριότητα για να αποκρυπτογραφήσει τον αθόρυβο λόγο. Η σιωπηλή ομιλία ανιχνεύεται χρησιμοποιώντας ηλεκτρομυογραφία (EMG), με ηλεκτρόδια τοποθετημένα στο πρόσωπο και το λαιμό. Το μοντέλο επικεντρώνεται σε αυτό που οι ερευνητές αποκαλούν ψηφιακή φωνή (digital voicing) για να προβλέψουν λέξεις και να δημιουργήσουν ένα συνθετικό λόγο που θα βγάζει νόημα και θα γίνεται κατανοητός.
Οι ερευνητές πιστεύουν ότι η μέθοδος τους μπορεί να επιτρέψει μια σειρά εφαρμογών για άτομα που δεν μπορούν να παράγουν ακουστικό λόγο, ενώ θα μπορούσαν να ενισχύσουν στο έπακρο την ανίχνευση ομιλίας για εικονικούς φωνητικούς βοηθούς, όπως το Google Assistant ή άλλες συσκευές που ανταποκρίνονται σε φωνητικές εντολές.
Η αθόρυβη ομιλία μέσω του digital voicing έχει ένα ευρύ φάσμα πιθανών εφαρμογών. Για παράδειγμα, θα μπορούσε να χρησιμοποιηθεί για να δημιουργήσει μια συσκευή ανάλογη με ένα ακουστικό Bluetooth που επιτρέπει στους ανθρώπους να συνεχίσουν τις τηλεφωνικές συνομιλίες, χωρίς να ακούγεται καθόλου η φωνή τους στον περίγυρο τους. Μια τέτοια συσκευή θα μπορούσε επίσης να είναι χρήσιμη σε περιβάλλοντα που έχει τρομερή οχλαγωγία, όπως σε συναυλίες που τα ντεσιμπέλ φτάνουν στα ύψη, και είναι σχεδόν αδύνατο να ακούσει κάποιος το διπλανό του εάν δεν φωνάζει πολύ δυνατά»
Ένα άλλο παράδειγμα τεχνητής νοημοσύνης που μπορεί να συλλέξει λέξεις από σιωπηλή ομιλία είναι όταν το σύστημα τεχνητής νοημοσύνης διαβάζει τα χείλη και μπορεί να τροφοδοτεί εργαλεία παρακολούθησης, ακόμα και σε δημόσιους δρόμους, ή να υποστηρίζει περιπτώσεις χρήσης για άτομα που είναι κωφά.
Για την πρόβλεψη της αθόρυβης ομιλίας τους, οι ερευνητές του UC Berkeley χρησιμοποίησαν μια προσέγγιση «όπου οι εξαγόμενοι αμυδροί ήχοι καταγράφονται σε ένα ηλεκτρονικό μητρώο». Στη συνέχεια χρησιμοποιείται ένας αποκωδικοποιητής WaveNet για τη δημιουργία προβλέψεων ομιλίας.
Σε σύγκριση με το αντίστοιχο παλαιότερο μοντέλο AI που εκπαιδεύτηκε με φωνητικά δεδομένα EMG (από την ίδια επιστημονική ομάδα), η συγκεκριμένη προσέγγιση παρέχει μείωση κατά 64% στα ποσοστά σφάλματος στην σιωπηλή ομιλία.
Μια έκθεση σχετικά με αυτό το μοντέλο που φέρει τον τίτλο «Digital Voicing of Silent Speech» από τους David Gaddy και Dan Klein έλαβε το βραβείο Best Paper στην εκδήλωση Empirical Methods in Natural Language Processing (EMNLP) που πραγματοποιήθηκε διαδικτυακά την περασμένη εβδομάδα. Η εταιρεία Hugging Face έλαβε το βραβείο Best Demo Paper από τους διοργανωτές για το έργο με την ονομασία «Transformers», το οποίο παρεμπιπτόντως είναι ανοιχτού κώδικα. Σε άλλα έργα του EMNLP, μέλη του έργου «Masakhane» που επικεντρώνεται στη μετάφραση αφρικανικών γλωσσών δημοσίευσαν μια μελέτη σχετικά με τη μηχανική μετάφραση που κατορθώνει να μεταφράζει υλικό ακόμη και από νεκρές γλώσσες που δεν υπάρχουν σχεδόν καθόλου πληροφορίες, ούτε καν για το αλφάβητο τους.