Ερευνητές στο εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT (CSAIL) ισχυρίζονται ότι έχουν αναπτύξει ένα έξυπνο σύστημα που μπορεί να αποκρυπτογραφήσει μια νεκρή γλώσσα χωρίς να χρειάζεται να γνωρίζει τη σχέση του με άλλες γλώσσες. Η επιστημονική ομάδα λέει ότι είναι ένα βήμα κοντά προς ένα σύστημα που μπορεί να αποκρυπτογραφήσει διάφορες εξαφανισμένες γλώσσες που πλέον δεν ομιλούνται από κανένα, χρησιμοποιώντας απλά μερικές χιλιάδες λέξεις που έχουν σωθεί σε γραπτό κείμενο.
Οι νεκρές γλώσσες είναι κάτι παραπάνω από μια ακαδημαϊκή περιέργεια. Χωρίς αυτές, η ανθρωπότητα κινδυνεύει να χάσει ένα πολύτιμο σύνολο γνώσεων για τους ανθρώπους που τις μιλούσαν ιστορικά, για παράδειγμα στην αρχαιότητα. Δυστυχώς, οι περισσότερες εξαφανισμένες γλώσσες έχουν ελάχιστα σωζόμενα αρχεία, κάτι που δυσκολεύει αφάνταστα τους επιστήμονες ,αφού δεν εφικτό να τις αποκρυπτογραφήσουν χρησιμοποιώντας συμβατικούς αλγόριθμους μηχανικής μετάφρασης. Μία άλλη σημαντική παράμετρος, σχετικά με αυτό το ζήτημα είναι ότι κάποιες γλώσσες δεν διαθέτουν παραδοσιακούς διαχωριστές, όπως το κενό διάστημα μεταξύ των λέξεων, σημεία στίξης κ.λπ. δυσκολεύοντας ακόμη περισσότερο το όλο εγχείρημα.
Αυτό το έργο του CSAIL, το οποίο υποστηρίχθηκε εν μέρει από το Intelligence Advanced Research Projects Activity και με επικεφαλής την καθηγήτρια του MIT, Regina Barzilay, ειδικευμένη στην επεξεργασία φυσικών γλωσσών, αξιοποιεί διάφορες αρχές που βασίζονται σε γνώσεις από την ιστορική γλωσσολογία. Για παράδειγμα, ενώ μια δεδομένη γλώσσα σπάνια προσθέτει ή διαγράφει έναν ήχο, είναι πιθανό να υπάρξουν ορισμένες αντικαταστάσεις ήχου. Φερειπείν μία λέξη που περιέχει «p» στη μητρική γλώσσα μπορεί να αλλάξει σε «b» στην μετεξελιγμένη γλώσσα, κάτι που προσθέτει επιπλέον εμπόδια σε αυτή τη διαδικασία.
Με την ενσωμάτωση αυτών και άλλων γλωσσικών περιορισμών, η Barzilay και η ομάδα της ανέπτυξαν έναν αλγόριθμο αποκρυπτογράφησης που μαθαίνει να ενσωματώνει γλωσσικούς ήχους σε έναν πολυδιάστατο χώρο όπου οι διαφορές στην προφορά αντικατοπτρίζονται στην απόσταση μεταξύ των αντίστοιχων διανυσμάτων. Αυτός ο σχεδιασμός επιτρέπει στο σύστημα να συλλάβει μοτίβα αλλαγής γλώσσας και να τα εκφράζει ως υπολογιστικούς περιορισμούς. Το μοντέλο που προκύπτει μπορεί να χωρίσει τις λέξεις σε μια αρχαία γλώσσα και να τις χαρτογραφήσει σε διάφορες αντίστοιχες ενεργές γλώσσες που ομιλούνται από πολύ κόσμο αυτή τη στιγμή πάνω στη γη.
Με το νέο σύστημα, ο αλγόριθμος μπορεί να αξιολογήσει την εγγύτητα μεταξύ δύο γλωσσών. Επιπλέον, όταν δοκιμάζεται σε γνωστές γλώσσες, μπορεί να προσδιορίσει με ακρίβεια τις γλωσσικές οικογένειες.
Η ομάδα εφάρμοσε τον αλγόριθμό της στην Ιβηρική γλώσσα, λαμβάνοντας υπόψη τα βασκικά, καθώς και λιγότερο πιθανό υποψήφιες από οικογένειες Romance, Germanic, Turkic και Uralic. Ενώ τα βασκικά και τα Λατινικά ήταν πιο κοντά στην Ιβηρική από άλλες γλώσσες, ήταν ακόμη πολύ διαφορετικά για να θεωρηθούν σχετικές, αποκάλυψε το σύστημα.
Σε κάποια μελλοντική εργασία, η ομάδα ελπίζει να επεκτείνει τις προσπάθειές της πέρα από την πράξη της σύνδεσης κειμένων με σχετικές λέξεις σε μια γνωστή γλώσσα, μια προσέγγιση που αναφέρεται ως αποκρυπτογράφηση βασισμένη σε γνωστικά. Η προσέγγιση της ομάδας θα περιλαμβάνει τον προσδιορισμό της σημασιολογικής έννοια των λέξεων ακόμη και αν δεν ξέρουν πως να τις διαβάσουν. «Αυτές οι μέθοδοι« αναγνώρισης, χρησιμοποιούνται συνήθως σε διάφορες εφαρμογές επεξεργασίας κειμένου, και είναι πολύ ακριβείς, αλλά το βασικό ερευνητικό ερώτημα είναι αν η εργασία είναι εφικτή χωρίς δεδομένα εκπαίδευσης στην αρχαία γλώσσα», δήλωσε η Barzilay.
Η Barzilay και οι συνάδελφοι της δεν είναι οι μόνοι που χρησιμοποιούν τεχνητή νοημοσύνη για την ανάκτηση νεκρών γλωσσών. Το DeepMind της Alphabet ανέπτυξε ένα σύστημα, την Pythia, που έμαθε να αναγνωρίζει μοτίβα σε 35.000 λείψανα που περιέχουν περισσότερες από 3 εκατομμύρια λέξεις. Κατάφερε να μαντέψει λέξεις ή χαρακτήρες που λείπουν από ελληνικές επιγραφές σε διάφορες επιφάνειες, όπως πέτρα, κεραμικά και μέταλλα ηλικίας μεταξύ 1.500 και 2.600 ετών.