Η Meta παρουσίασε το HOT3D, ένα νέο σύνολο δεδομένων που στοχεύει στην προώθηση της έρευνας στην μηχανική μάθηση για την ανάλυση των αλληλεπιδράσεων χεριού-αντικειμένου. Το σύνολο αυτό, διαθέσιμο δημοσίως, προσφέρει πολύτιμα δεδομένα για την εκπαίδευση μοντέλων που μπορούν να βελτιώσουν τον χειρισμό ρομπότ, τις διεπαφές ανθρώπου-μηχανής και τις εφαρμογές επαυξημένης και εικονικής πραγματικότητας (AR/VR).
Το Πρόβλημα του Χειρισμού Αντικειμένων από Ρομπότ
Ενώ οι άνθρωποι χρησιμοποιούν με φυσικότητα τα χέρια τους για επικοινωνία και χειρισμό αντικειμένων, τα ρομποτικά συστήματα συχνά δυσκολεύονται σε σύνθετες χειροκίνητες εργασίες. Η ανάπτυξη μοντέλων μηχανικής μάθησης που επεξεργάζονται εικόνες ανθρώπινων χειροκίνητων εργασιών είναι ζωτικής σημασίας για τη βελτίωση του χειρισμού ρομπότ και την ενίσχυση της αλληλεπίδρασής τους με ανθρώπους και αντικείμενα.
Τέτοια μοντέλα θα μπορούσαν επίσης να χρησιμοποιηθούν για τη δημιουργία προηγμένων διεπαφών ανθρώπου-μηχανής και την επέκταση των δυνατοτήτων των συστημάτων AR/VR. Για την αποτελεσματική εκπαίδευση αυτών των μοντέλων, απαιτούνται σύνολα δεδομένων υψηλής ποιότητας με σχολιασμένα βίντεο από πραγματικές χειροκίνητες εργασίες.
Το Σύνολο Δεδομένων HOT3D
Το HOT3D αποτελεί μια σημαντική προσθήκη στην προσπάθεια αυτή. Περιέχει εγωκεντρικά τρισδιάστατα βίντεο υψηλής ποιότητας που καταγράφουν ανθρώπους να αρπάζουν και να χειρίζονται διάφορα αντικείμενα. Η εγωκεντρική προοπτική (πρώτου προσώπου) αντικατοπτρίζει την οπτική γωνία του ατόμου που εκτελεί την εργασία, παρέχοντας πολύτιμες πληροφορίες για την εκπαίδευση μοντέλων.
«Παρουσιάζουμε το HOT3D, ένα δημοσίως διαθέσιμο σύνολο δεδομένων για εγωκεντρική παρακολούθηση χεριών και αντικειμένων σε 3D», αναφέρουν οι Prithviraj Banerjee, Sindi Shkodrani και οι συνεργάτες τους. Το σύνολο δεδομένων περιλαμβάνει πάνω από 833 λεπτά (περισσότερες από 3,7 εκατομμύρια εικόνες) ροών RGB/μονόχρωμων εικόνων πολλαπλής προβολής, που δείχνουν 19 άτομα να αλληλεπιδρούν με 33 διαφορετικά άκαμπτα αντικείμενα.
Περιλαμβάνει επίσης πολυτροπικά σήματα, όπως το βλέμμα των ματιών και τα σύννεφα σημείων σκηνής, καθώς και ολοκληρωμένους σχολιασμούς, όπως τρισδιάστατες στάσεις αντικειμένων, χεριών και καμερών, και τρισδιάστατα μοντέλα χεριών και αντικειμένων.
Περιεχόμενο και Συλλογή Δεδομένων του HOT3D
Το HOT3D περιλαμβάνει απλές και σύνθετες επιδείξεις χειρισμού αντικειμένων. Από απλές ενέργειες όπως το να μαζεύει κάποιος ένα αντικείμενο και να το τοποθετεί ξανά, έως πιο σύνθετες, όπως η χρήση μαγειρικών σκευών, ο χειρισμός τροφίμων και η πληκτρολόγηση σε πληκτρολόγιο, το σύνολο δεδομένων καλύπτει ένα ευρύ φάσμα πραγματικών σεναρίων.
Τα δεδομένα συλλέχθηκαν με δύο συσκευές που αναπτύχθηκαν στη Meta: τα γυαλιά Project Aria και τα ακουστικά Quest 3. Τα γυαλιά Project Aria καταγράφουν βίντεο και ήχο, παρακολουθούν τις κινήσεις των ματιών και συλλέγουν πληροφορίες για τη θέση των αντικειμένων στο οπτικό πεδίο. Το Quest 3 είναι ένα εμπορικά διαθέσιμο ακουστικό εικονικής πραγματικότητας.
Οι στάσεις (poses) των χεριών και των αντικειμένων καταγράφηκαν με ένα επαγγελματικό σύστημα λήψης κίνησης, χρησιμοποιώντας μικρούς οπτικούς δείκτες. Οι σχολιασμοί των χεριών παρέχονται στις μορφές UmeTrack και MANO, ενώ τα αντικείμενα αντιπροσωπεύονται από τρισδιάστατα πλέγματα.
Αξιολόγηση και Αποτελεσματικότητα του HOT3D
Για να αξιολογήσουν την αποτελεσματικότητα του HOT3D, οι ερευνητές εκπαίδευσαν βασικά μοντέλα σε τρεις διαφορετικές εργασίες: τρισδιάστατη παρακολούθηση χεριών, εκτίμηση πόζας αντικειμένων 6DoF και τρισδιάστατη ανύψωση άγνωστων αντικειμένων στο χέρι. Τα αποτελέσματα έδειξαν σημαντική βελτίωση στην απόδοση των μοντέλων όταν εκπαιδεύτηκαν με τα δεδομένα πολλαπλών προβολών του HOT3D, σε σύγκριση με την εκπαίδευση με δεδομένα μεμονωμένης προβολής.
Διαθεσιμότητα και Μελλοντικές Εφαρμογές
Το σύνολο δεδομένων HOT3D είναι ανοιχτού κώδικα και διατίθεται στον ιστότοπο του Project Aria. Αναμένεται να συμβάλει σημαντικά στην ανάπτυξη τεχνολογιών όπως οι διεπαφές ανθρώπου-μηχανής, η ρομποτική και άλλα συστήματα που βασίζονται στην υπολογιστική όραση.
Η σημασία των Δεδομένων στην Εξέλιξη της Τεχνητής Νοημοσύνης
Η δημιουργία και η διάθεση δημοσίως διαθέσιμων συνόλων δεδομένων, όπως το HOT3D, αποτελεί κρίσιμο παράγοντα για την πρόοδο της τεχνητής νοημοσύνης. Η πρόσβαση σε ποιοτικά και πλούσια δεδομένα επιτρέπει στους ερευνητές να εκπαιδεύσουν πιο ακριβή και αποτελεσματικά μοντέλα, επιταχύνοντας την έρευνα και την ανάπτυξη σε διάφορους τομείς. Η Meta, με την πρωτοβουλία της αυτή, συμβάλλει στην οικοδόμηση μιας ισχυρότερης βάσης για το μέλλον της τεχνητής νοημοσύνης.
Η Συμβολή του HOT3D στην Ανάπτυξη της Ρομποτικής
Ειδικότερα, στον τομέα της ρομποτικής, το HOT3D αναμένεται να έχει σημαντικό αντίκτυπο. Η βελτίωση της ικανότητας των ρομπότ να αντιλαμβάνονται και να αλληλεπιδρούν με το περιβάλλον τους, μέσω της ανάλυσης των ανθρώπινων χειροκίνητων εργασιών, ανοίγει νέους δρόμους για την αυτοματοποίηση σύνθετων εργασιών σε βιομηχανίες, την υγεία, την εξυπηρέτηση και πολλούς άλλους τομείς. Η δυνατότητα των ρομπότ να μαθαίνουν από την ανθρώπινη συμπεριφορά θα τα καταστήσει πιο ευέλικτα, προσαρμοστικά και ικανά να συνεργάζονται αποτελεσματικότερα με τους ανθρώπους.