Η ομάδα Tensorflow της Google δίνει στο κοινό το open-sources speech για DIY AI

Η ομάδα Tensorflow της Google δίνει στο κοινό το open-sources speech για DIY AI

Οι ερευνητές της Google ανοίγουν σήμερα ένα σύνολο δεδομένων για να δώσουν στους κατασκευαστές DIY που ενδιαφέρονται για την τεχνητή νοημοσύνη περισσότερα εργαλεία για τη δημιουργία βασικών φωνητικών εντολών για μια σειρά έξυπνων συσκευών. Δημιουργήθηκε από τις ομάδες TensorFlow και AIY στο Google, το σύνολο δεδομένων Speech Commands είναι μια συλλογή από 65.000 εκφράσεις με 30 λέξεις για την κατάρτιση και τη συμπερίληψη των μοντέλων AI.

Το AIY Projects ξεκίνησε τον Μάιο για να υποστηρίξει τους κατασκευαστές που κάνουν το make -it-yourself οι οποίοι θέλουν να βυθιστούν με AI. Η πρωτοβουλία σχεδιάζει να αρχίσουν μια σειρά σχεδίων αναφοράς και να ξεκινήσουν με την αναγνώριση ομιλίας και ένα έξυπνο ομιλητή που μπορείτε να φτιάξετε σε ένα κουτί από χαρτόνι.

“Η υποδομή που χρησιμοποιήσαμε για τη δημιουργία των δεδομένων ήταν ανοιχτή και ελπίζουμε να την δούμε να χρησιμοποιείται από την ευρύτερη κοινότητα για να δημιουργήσει τις δικές της εκδόσεις, ειδικά για να καλύψει τις υποεξυπηρετούμενες γλώσσες και εφαρμογές”, γράφει ο μηχανικός του Google Brain, Pete Warden Blog post σήμερα.

Ο διευθυντής δήλωσε ότι η Google ελπίζει ότι περισσότεροι τόνοι και παραλλαγές θα μοιραστούν στο έργο με την πάροδο του χρόνου, ώστε να διευρυνθεί το σύνολο δεδομένων πέρα ​​από τις συνεισφορές που έχουν ήδη γίνει από χιλιάδες ανθρώπους. Σε αντίθεση με άλλα σύνολα δεδομένων, μπορείτε να προσθέσετε την φωνή σας στις εντολές ομιλίας. Επισκεφθείτε το τμήμα της ομιλίας του ιστότοπου AIY Projects και θα προσκληθείτε να συνεισφέρετε σύντομες ηχογραφήσεις 135 απλών λέξεων όπως “bird”, “stop” ή “go”, καθώς και μια σειρά αριθμών και ονομάτων.

Ορισμένα μοντέλα που εκπαιδεύονται χρησιμοποιώντας το σύνολο δεδομένων εντολών ομιλίας ενδέχεται να μην κατανοούν ακόμη τη φωνή κάθε χρήστη, επειδή ορισμένες ομάδες δεν αντιπροσωπεύονται καλά σε φωνητικά δείγματα που συλλέχθηκαν μέχρι τώρα από το έργο, ανέφερε ο Warden.

Η έλλειψη τοπικών διαλέκτων ή αργαλειών έχει βρεθεί ότι αποκλείει ορισμένες ομάδες ανθρώπων όταν δίνουν σε μια συσκευή φωνητική εντολή.

Μια μελέτη που δημοσιεύθηκε τον περασμένο μήνα από τους ερευνητές Stanford AI διαπίστωσε ότι ένα αναγνωριστικό γλώσσας NLP που ονομάζεται Equilid που εκπαιδεύτηκε με πράγματα όπως το Twitter και το Urban Dictionary είναι ακριβέστερο από τα αναγνωριστικά που εκπαιδεύονται με κείμενο που μπορεί να αποκλείσει ορισμένους χρήστες με βάση την ηλικία, Φυσικά μιλάμε, για αρχικά αποτελέσματα που βρέθηκαν στο Equilid τα οποία ήταν πιο ακριβή από το CLD2 της Google.

Πρόσθετες ακαδημαϊκές εξετάσεις των εργαλείων αναγνώρισης ομιλίας διαπίστωσε ότι δημοφιλή εργαλεία NLP δυσκολεύονται να καταλάβουν τα Αφρικανικά και τους Αμερικανούς χρήστες.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Παρακαλώ εισάγετε το σχόλιο σας!
Παρακαλώ εισάγετε το όνομά σας