Μηχανικοί από το UNSW Sydney (Πανεπιστήμιο της Νέας Νότιας Ουαλίας) ξεκίνησαν μια φιλότιμη προσπάθεια ώστε οι παιδικές φωνές να μπορούν να γίνουν καλύτερα κατανοητές από συσκευές που χρησιμοποιούν λογισμικό αναγνώρισης φωνής, όπως η συσκευή Google Home, όπως και για άλλες της ίδιας κατηγορίας.
Οι ερευνητές λένε ό,τι τα οφέλη που θα προκύψουν από αυτό το εγχείρημα είναι πολλαπλά, αφού το παρόν εγχείρημα θα μπορούσε να βοηθήσει άμεσα ή έμμεσα στον τομέα της εκπαίδευσης σε διάφορα σχόλια, και όπως και στη λογοθεραπεία, όπου τυπικά αυτές οι ψηφιακές συσκευές θα παρέχουν συνεχή ανατροφοδότηση στην ορθή κατάρτιση του λόγου 24 ώρες το 24ωρο, ασταμάτητα, δηλαδή ό,τι ώρα επιθυμεί να χρησιμοποιήσει το παιδί της συσκευή.
Μέχρι τώρα, το λογισμικό αναγνώρισης ομιλίας που τροφοδοτεί τους εικονικούς βοηθούς όπως ο Βοηθός Google, η Alexa και η Siri βασίζονται κατά κόρον σε μια τεράστια βάση δεδομένων για φωνές ενηλίκων, τόσο για γυναίκες, όσο και για άντρες, όχι όμως για ανήλικα παιδιά που είναι κάτω των 12 ετών.
Αλλά όλα αυτά πρόκειται να αλλάξουν με την έναρξη του AusKidTalk, ενός κοινού έργου πέντε πανεπιστημίων της Αυστραλίας που στοχεύει στη δημιουργία μιας παγκόσμιας πρώτης βάσης δεδομένων για τις φωνές των παιδιών πρωτίστως για την Αυστραλία, και εφόσον πάει καλά το εγχείρημα, τότε ενδεχομένως να εξαπλωθεί παγκοσμίως σε όλες τις ομιλούμενες ενεργές γλώσσες, αρκεί από πίσω να υπάρχει συνεχής υποστήριξη εμπλουτισμού με καινούργιο φωνητικό υλικό.
Η Dr. Beena Ahmed, ανώτερη λέκτορας στη Σχολή Ηλεκτρολόγων Μηχανικών και Τηλεπικοινωνιών του UNSW, λέει ό,τι ενώ η τεχνολογία αναγνώρισης ομιλίας έχει σημειώσει άλματα προόδου την τελευταία δεκαετία, εν τούτοις η παρούσα τεχνολογία εξακολουθεί να υστερεί όταν πρόκειται για την κατανόηση ομιλίας μικρών παιδιών.
Η Dr. Beena Ahmed ανέφερε συγκεκριμένα: «Αδιαμφισβήτητα έχει σημειωθεί μεγάλη βελτίωση στην αναγνώριση ομιλίας για να δουλεύεις με διαφορετικές προφορές και γλώσσες,. Αλλά μέχρι στιγμής, όλα αυτά επικεντρώνονται μονάχα για τους ενήλικες ανθρώπους. Υπάρχει μια συγκεκριμένη έλλειψη δεδομένων για τα παιδιά, όχι μόνο στην Αυστραλία, αλλά γενικά σε όλες τις χώρες του πλανήτη. Αυτό συμβαίνει λανθασμένα, διότι ο ανήλικος πληθυσμός παγκοσμίως είναι περίπου το ένα τρίτο, κάτι που σημαίνει πως αυτά τα δημογραφικά στοιχεία δεν δύναται να περάσουν απαρατήρητα από τους ιθύνοντες που εργάζονται πάνω σε τούτο τον τομέα. Εταιρείες όπως η Amazon, η Apple και η Google άργησαν να καταλάβουν ό,τι αυτή είναι όντως μια μεγάλη αγορά που ίσως να επιφέρει πολλά κέρδη».
Η Δρ Ahmed και οι συνάδελφοί μηχανικοί, γλωσσολόγοι, ψυχολόγοι και λογοθεραπευτές πρόκειται να αρχίσουν να στρατολογούν 750 παιδιά ηλικίας τριών έως 12 ετών για να παρέχουν δείγματα ομιλίας στο πλαίσιο του προγράμματος AusKidTalk. Σε ηχομονωμένα στούντιο που βρίσκονται σε καθεμία από τις πέντε πανεπιστημιουπόλεις, τα παιδιά θα ηχογραφούνται καθώς τους ζητείται να επαναλάβουν λέξεις, ψηφία και προτάσεις πριν συμμετάσχουν σε ασκήσεις αφηγήσεων.
Η νέα βάση δεδομένων για την ομιλία των παιδιών θα χρησιμοποιηθεί από γλωσσολόγους και ψυχολόγους για να κατανοήσουν καλύτερα πως τα παιδιά αναπτύσσουν την ομιλία και τη γλώσσα τους. Οι μηχανικοί, εν τω μεταξύ, θα μπορούν να το χρησιμοποιήσουν για να αναπτύξουν νέα συστήματα αναγνώρισης ομιλίας που θα αλληλεπιδρούν με τους νεότερους χρήστες πολύ πιο ομαλά και πιο λειτουργικά από ό,τι γινόταν στο παρελθόν.
Η Δρ Ahmed λέει ό,τι η ακρίβεια των συστημάτων αναγνώρισης ομιλίας κατά την αλληλεπίδραση με παιδιά ήταν μέχρι στιγμής αρκετά κακή, πράγμα που σημαίνει πως απαιτείται εντατική εργασία έως ότου καταστεί η βάση δεδομένων επαρκής για εμπορική χρήση. Ο κύριος λόγος για αυτήν την αδυναμία οφείλεται στο γεγονός, επειδή η ομιλία των παιδιών είναι πολύ διαφορετική από την ομιλία των ενηλίκων, και προφανώς το εγχείρημα είναι ακόμη στην αρχή.
Οι γλωσσικές δεξιότητες των παιδιών δεν είναι τόσο εξελιγμένες, όσο στους ενήλικες. Μπορεί να μιλούν με λανθασμένη προφορά ή να παραλείπουν ήχους ή λέξεις, ή να αλλάξουν την αναμενόμενη σειρά λέξεων. Επιπρόσθετα, υπάρχουν φυσιολογικές διαφορές, η φωνητική οδός τους δεν έχει αναπτυχθεί πλήρως και μέχρι να φτάσουν στην εφηβεία, μιλούν σε πολύ υψηλότερες ηχητικές συχνότητες. Όλα αυτά κάνουν την ομιλία τους πολύ διαφορετική από τους ενήλικες και επομένως είναι πιο δύσκολο να τα επεξεργαστούν με αρτιότητα τα συστήματα αναγνώρισης ομιλίας.
Πιθανά οφέλη για τη λογοθεραπεία και την εκπαίδευση
Εκτός από την καταγραφή δειγμάτων τυπικής ομιλίας, οι ερευνητές θα καταγράφουν επίσης δείγματα διαταραγμένης ομιλίας όταν μιλούν τα παιδιά.
Η ιδέα πίσω από αυτό είναι εάν τα συστήματα αναγνώρισης ομιλίας θα μπορούσαν να διδαχθούν να αναγνωρίζουν όταν τα παιδιά αντιμετωπίζουν προβλήματα στη διαμόρφωση λέξεων, δεν θα μπορούσαν μόνο να χρησιμοποιηθούν για την κατανόηση φωνητικών εντολών που μιλούν τα παιδιά, αλλά θα ήταν εφικτό επίσης να χρησιμοποιηθούν θεραπευτικά για να βοηθήσουν στην εκπαίδευση ομιλίας μέσω μιας κινητής συσκευής, όπως κάποιο smartphone που έχει εγκατεστημένη μία εξειδικευμένη εφαρμογή για τούτο τον σκοπό.
«Η λογοθεραπεία είναι μια πολύ μία δαπανηρή και χρονοβόρα διαδικασία», λέει η Δρ Ahmed. «Στην Αυστραλία, οι γονείς ξοδεύουν έως και 200 δολάρια για μια συνεδρία με έναν γιατρό, άσε που πρέπει ακόμη να γίνει πολλή πρακτική άσκηση και στο σπίτι όταν ο κλινικός γιατρός δεν μπορεί να παρακολουθεί, ώστε να μην χάνεται πολύτιμος χρόνος. Ένα άλλο πρόβλημα είναι ό,τι οι ίδιοι γονείς ενδεχομένως να δυσκολεύονται να εκπαιδεύουν τα παιδιά στο σπίτι, επειδή δεν είναι κατάλληλα καταρτισμένοι ή επειδή δεν έχουν ελεύθερο χρόνο για να αφιερώσουν στα τέκνα τους, λόγω ανειλημμένων υποχρεώσεων».
«Αλλά με ένα αυτοματοποιημένο εργαλείο λογοθεραπείας, τα παιδιά και οι γονείς θα μπορούσαν να λάβουν άμεση και ουσιώδης υποστήριξη, σε τέτοιο βαθμό που θα αγγίζει το επίπεδο ενός γιατρού», λέει ο Δρ Ahmed. «Θα έδινε στα παιδιά άμεση και συνεχή πρόσβαση σε εξειδικευμένη θεραπεία υψηλής ποιότητας, οποιαδήποτε ώρα της ημέρας. Γιατί ομολογουμένως τα περιορισμένα ραντεβού που διεξάγονται αραιά μέσα στην εβδομάδα δεν επαρκούν για να γίνει ταχεία πρόοδος».
Τα συστήματα αναγνώρισης ομιλίας που χρησιμοποιούν μια βάση δεδομένων με παιδικές φωνές θα μπορούσαν επίσης να έχουν ορατά οφέλη και στην εκπαίδευση, ιδίως στην πρωτοβάθμια που εκεί διαμορφώνεται ο λόγος των μαθητών.
Οι ερευνητές λένε ότι η πανδημία COVID-19 έχει δείξει πόσο σημαντικά είναι τα εργαλεία απομακρυσμένης επικοινωνίας και μάθησης. Δυστυχώς, τα παιδιά δεν μπόρεσαν να επωφεληθούν από αυτά τα εργαλεία, όσο οι ενήλικες, λόγω της έλλειψης αποτελεσματικών εργαλείων που βασίζονται σε ομιλία για απομακρυσμένη θεραπεία ομιλίας και μάθησης. Επομένως είναι λογικό να υπάρχει μία ανισότητα στα αναμενόμενα οφέλη μεταξύ αυτών των δύο κατηγοριών,
Η Δρ Ahmed λέει ότι μετά την καταγραφή των δειγμάτων από 750 παιδιά και την ενσωμάτωση του καταγεγραμμένου υλικού σε ένα σύστημα αναγνώρισης ομιλίας, μια βάση δεδομένων ανοιχτού κώδικα θα είναι διαθέσιμη στο διαδίκτυο για να συνεργαστούν παράλληλα και άλλοι ερευνητές από διάφορα κράτη. Το έργο αναμένεται να ολοκληρωθεί έως τον Ιούνιο του 2021.
Το AusKidTalk είναι ένα πρόγραμμα που χρηματοδοτείται από το ARC και περιλαμβάνει το UNSW Sydney, το Πανεπιστήμιο του Σίδνεϊ, το Πανεπιστήμιο Western Sydney, το Πανεπιστήμιο Macquarie και το Πανεπιστήμιο της Μελβούρνης