Ο αλγόριθμος αναγνώρισης ομιλίας του Alibaba μπορεί να απομονώσει φωνές σε θορυβώδη πλήθη

Ο αλγόριθμος αναγνώρισης ομιλίας του Alibaba μπορεί να απομονώσει φωνές σε θορυβώδη πλήθη

Ο κινεζικός όμιλος Alibaba είναι μία από τις μεγαλύτερες εταιρείες ηλεκτρονικού εμπορίου στον κόσμο, και μάλιστα τα τελευταία χρόνια στρέφει όλο και περισσότερο την προσοχή του στην τεχνητή νοημοσύνη (AI).

Τον Μάρτιο του 2017, ξεκίνησε ένα τμήμα υπηρεσιών υγείας που προορίζεται για την υγειονομική περίθαλψη, ενώ τον Σεπτέμβριο, παρουσίασε το δημόσιο σύννεφο που φέρει την ονομασία Alibaba Cloud – επιπλέον αποκάλυψε τα σχέδια του για τη δημιουργία μιας ειδικής θυγατρικής εταιρείας για την παραγωγή ενός self-developed chip AI που θα μπορούσε να χρησιμοποιηθεί για logistics και την αυτόνομη οδήγηση οχημάτων, Εν ολίγοις αρκετά πρωτοποριακές ιδέες που χρήζουν άξια αναφοράς.

Ο Alibaba δεν κρύβει πως είναι προσηλωμένος στην τεχνητή νοημοσύνη και όλους τους τομείς που το συνοδεύουν. Και κατά τη διάρκεια μιας παρουσίασης στο NeurIPS 2018 στο Μόντρεαλ σήμερα το πρωί, ξεδίπλωσε τα χαρτιά του για τις διασυνοριακές προσπάθειες του, που αναμφισβήτητα προκαλούν δέος στους απλούς θνητούς.

Ο Rong Jin, κοσμήτορας του Ινστιτούτου Δεδομένων Alibaba δήλωσε: «Επιλύουμε … πολύπλοκα σενάρια με αόρατες δυσκολίες. Η τεχνητή νοημοσύνη φέρνει αρκετές καινοτομίες που βοηθά να λυθούν μερικές ενδιαφέρουσες προκλήσεις».

Μία από αυτές τις προκλήσεις είναι η αναγνώριση ομιλίας σε θορυβώδη περιβάλλοντα, όπως συμβαίνει σε ένα γεμάτο από κόσμο σταθμό μετρό ή μια τυπική συμφόρηση σε κάποιο συνεδριακό κέντρο. Η λύση που παρέχει ο Alibaba είναι ένα προηγμένο λογισμικό με εξελιγμένα μικρόφωνα και αλγόριθμους βαθιάς μάθησης που απομονώνουν τις φωνές μέσα σε ένα πλήθος, μειώνοντας έτσι δραστικά το ποσοστό σφάλματος.

Σε σύγκριση με τις καλύτερες τεχνολογίες αναγνώρισης ομιλίας πού φτάνουν σε επιτυχία το 84%, το σύστημα του Alibaba είναι σε θέση να επιτύχει κάτι που θεωρείται αδιανόητο για τα σημερινά δεδομένα της εποχής, αγγίζοντας σε επιτυχία μεταξύ 94% με 95%, ακόμα και στις πιο αντίξοες συνθήκες.

Το συγκεκριμένο λογισμικό ήδη έχει εφαρμοστεί ως μέρος ενός φωνητικού συστήματος πού πάνε οι άνθρωποι και κόβουν εισιτήριο σε υπόγειο σιδηρόδρομο στη Σαγκάη και στην παρούσα φάση ο Alibaba βρίσκεται σε συνομιλίες με διάφορους δήμους της χώρας ούτως ώστε να το εγκαταστήσει και σε περαιτέρω πόλεις.

Ωστόσο, εκείνο που κάνει ακόμη πιο ενδιαφέρον αυτό το προηγμένο σύστημα είναι πως δεν χρησιμοποιείται μόνο στην κινεζική γλώσσα. Χρησιμοποιώντας τη φυσική επεξεργασία γλώσσας (αγγλικά: natural language processing), πραγματοποιεί αυτόματη μετάφραση σε πραγματικό χρόνο, στο σύννεφο, έτσι ώστε οι πελάτες του Alibaba σε χώρες όπως η Ρωσία, Ινδονησία, Μαλαισία, Μπρουνέι και Σιγκαπούρη να μπορούν να συνομιλούν με ανθρώπινους πράκτορες στις μητρικές τους γλώσσες.