Το M2M-100 του Facebook μπορεί να μεταφράσει 100 διαφορετικά ζεύγη γλωσσών

20 Οκτωβρίου 2020

382

Το Facebook χρησιμοποιεί τον ανοιχτού κώδικα M2M-100, ένας αλγόριθμος που σύμφωνα με τα λεγόμενα της εταιρείας, είναι ο πρώτος που μπορεί να μεταφράσει μεταξύ οποιουδήποτε ζεύγους 100 γλωσσών, χωρίς να βασίζεται σε αγγλικά δεδομένα. Το μοντέλο μηχανικής μάθησης, το οποίο εκπαιδεύτηκε σε 2.200 ζεύγη γλωσσών, φαινομενικά ξεπερνά τα αγγλικό-κεντρικά συστήματα σε μια μέτρηση που χρησιμοποιείται συνήθως για την αξιολόγηση της απόδοσης της μηχανικής μετάφρασης.

Ο στόχος της πολύγλωσσης μηχανικής μετάφρασης είναι να δημιουργήσει ένα μοντέλο που μπορεί να μεταφράσει μεταξύ οποιουδήποτε ζεύγους πάνω από 7.000 γλωσσών στον κόσμο. Τα πολυγλωσσικά μοντέλα μετάφρασης μοιράζονται πληροφορίες μεταξύ παρόμοιων γλωσσών, τα οποία ωφελούν τα ζεύγη γλωσσών που έχουν ελάχιστους μεταφραστικούς πόρους, επιτρέποντας έτσι τη μετάφραση με μηδενικούς πόρους ή μετάφραση σε γλώσσες που το μοντέλο δεν έχει ξαναδεί ποτέ. Καθώς τα μοντέλα αυξάνονται σε μέγεθος πόρων, απαιτούν μεγαλύτερα σύνολα δεδομένων που μπορεί να είναι επίπονα και δύσκολο να δημιουργηθούν, γεγονός που οδήγησε ορισμένους ερευνητές να επικεντρωθούν στα αγγλικά σύνολα δεδομένων σε αυτές τις τεχνικές μοντελοποίησης. (Για παράδειγμα, η υποστήριξη 100 γλωσσών θα απαιτούσε 100 δισεκατομμύρια ζεύγη προτάσεων.) Αλλά αυτή η προκατάληψη στα δεδομένα και η περιέργη μοντελοποίηση δεν αντικατοπτρίζει τον τρόπο με τον οποίο οι άνθρωποι χρησιμοποιούν τη μετάφραση και οδηγεί σε χειρότερη απόδοση για τις μη αγγλικές μεταφράσεις.

Αντίθετα, το M2M-100 του Facebook εκπαιδεύτηκε σε ένα σύνολο δεδομένων με πάνω από 7,5 δισεκατομμύρια προτάσεις σε 100 διαφορετικές γλώσσες. Για να το φτιάξουν, οι ερευνητές του Facebook αποφάσισαν να εφαρμόσουν τρία κριτήρια για να καθοδηγήσουν την επιλογή της γλώσσας τους. Επιδίωξαν να συμπεριλάβουν γλώσσες από διαφορετικές οικογένειες με γεωγραφική ποικιλομορφία, και οι οποίες ομιλούνται ευρέως από πολύ κόσμο. Στη συνέχεια, μείωσε τη λίστα σε εκείνες για τις οποίες υπάρχουν δεδομένα αξιολόγησης, έτσι θα ήταν ευκολότερο να ποσοτικοποιηθεί η απόδοση του μοντέλου. Τέλος, από τις υπόλοιπες γλώσσες, εξάλειψαν εκείνες για τις οποίες δεν ήταν διαθέσιμα μονογλωσσικά δεδομένα.

Το M2M-100 βασίζεται στο XLM-R , το πολύγλωσσο μοντέλο του Facebook που μπορεί να μάθει από δεδομένα σε μία γλώσσα και να εκτελέσει μια εργασία σε 100 διαφορετικές γλώσσες. Τον Ιούλιο, το Facebook κυκλοφόρησε ένα μοντέλο αναγνώρισης ομιλίας που υποστηρίζει 51 διαφορετικές γλώσσες. Ενώ πιο πρόσφατα, η εταιρεία αναφέρει λεπτομερώς το CRISS, το οποίο αξιοποιεί δεδομένα χωρίς ετικέτες από πολλές διαφορετικές γλώσσες για να εξορύξει προτάσεις σε διάφορες γλώσσες και να εκπαιδεύσει πιο πολύπλοκα μοντέλα.

«Εδώ και χρόνια, οι ερευνητές της τεχνητής νοημοσύνης εργάζονται για τη δημιουργία ενός ενιαίου, καθολικού μοντέλου που μπορεί να κατανοήσει όλες τις γλώσσες που προορίζονται για διαφορετικές εργασίες», έγραψε η Angela Fan, επιστήμονας δεδομένων στο Facebook AI Research Paris. «Ένα ενιαίο μοντέλο που θα υποστηρίζει όλες τις γλώσσες, του διάλεκτους και ιδιωματισμούς θα μας βοηθήσει να εξυπηρετήσουμε καλύτερα περισσότερα άτομα, να διατηρήσουμε τις μεταφράσεις ενημερωμένες και να δημιουργήσουμε νέες εμπειρίες για δισεκατομμύρια ανθρώπους που μέχρι τώρα εξυπηρετούνται ανεπαρκώς από τα τρέχοντα συστήματα».

Για το M2M-100, οι ερευνητές του Facebook χρησιμοποίησαν νέες τεχνικές αναγνώρισης γλώσσας για να εξορύξουν φαινομενικά υψηλότερης ποιότητας δεδομένα από μια σειρά πηγών. Το ένα ήταν το Language-Agnostic Sentence Representations (LASER), ένα κιτ εργαλείων ανοιχτού κώδικας. Τα άλλα δύο ήταν το CCMatrix , ένα σύνολο δεδομένων bitext για την εκπαίδευση μοντέλων μετάφρασης και το CCAligned, μια μεγάλη συλλογή ζευγών διαγλωσσικών εγγράφων.

Διαβάστε επίσης: Μετάφραση (online translate) οι καλύτερες πλατφόρμες.