Η IBM επιδιώκει να βελτιώσει το χρόνο διδασκαλίας για τα μοντέλα οπτικής αναγνώρισης.
Πριν από δύο μήνες, το Εργαστήριο Ερευνών του AI (FAIR) του Facebook δημοσίευσε ορισμένους εντυπωσιακούς χρόνους κατάρτισης για μαζικά κατανεμημένα μοντέλα οπτικής αναγνώρισης.
Σήμερα, η IBM δημοσίευσε τους δικούς της αριθμούς σκοπεύοντας να προκαλέσει ντόρο. Οι ερευνητικές ομάδες της IBM λένε ότι ήταν σε θέση να εκπαιδεύσουν το ResNet-50 για μαθήματα 1k σε 50 λεπτά σε 256 GPUs – πράγμα που είναι πραγματικά ένα πολύ σπουδαίο επίτευγμα. Από την άλλη πλευρά το Facebook σημείωσε ότι με το Caffe2 ήταν σε θέση να εκπαιδεύσει ένα παρόμοιο μοντέλο ResNet-50 σε μία ώρα σε 256 μονάδες GPU χρησιμοποιώντας μια προσέγγιση 8k mini-batch.
Αυτή θα ήταν μια φυσική στιγμή για να αναρωτηθούμε γιατί κάτι τέτοιο έχει τόσο μεγάλη σημασία. Η κατανεμημένη επεξεργασία είναι ένα μεγάλο υπο-πεδίο έρευνας της ΑΠ, αλλά είναι επίσης μία αρκετά προβληματική διαδικασία. Οι εργασίες πληροφορικής είναι συχνά τόσο μεγάλες για προβλήματα βαθιάς μάθησης, τα οποία αντιμετωπίζονται με τον καλύτερο τρόπο σε μεγάλο αριθμό μονάδων GPU αντί μόνο σε μία GPU.
Αλλά καθώς προσθέτετε περισσότερες μονάδες GPU, ο χρόνος εκπαίδευσης δεν μειώνεται φυσικά. Για παράδειγμα, μπορεί να υποθέσετε ότι αν χρειάζονταν δύο λεπτά για να εκπαιδεύσετε με μία GPU, χρειάστηκε ένα λεπτό για να εκπαιδεύσει με δύο μονάδες GPU. Στον πραγματικό κόσμο αυτό δεν λειτουργεί όπως θα νομίζαμε, επειδή υπάρχει κάποιο κόστος για τον διαχωρισμό και τον ανασυνδυασμό πολύπλοκων ποσοτικών πράξεων.
Αυτό που η IBM υπόσχεται είναι η πιο αποδοτική κατανεμημένη βιβλιοθήκη βαθιάς μάθησης για τη διάσπαση ενός γιγαντιαίου προβλήματος βαθιάς μάθησης σε εκατοντάδες μικρότερα προβλήματα βαθιάς μάθησης.
Όλα αυτά μπορεί να φαίνονται μικροσκοπικά στο πλαίσιο μιας ενιαίας εργασίας υπολογιστών, αλλά να θυμάστε ότι εταιρείες όπως η IBM και το Facebook είναι μοντέλα κατάρτισης όλη μέρα κάθε μέρα για εκατομμύρια πελάτες. Κάθε μεγάλη εταιρεία τεχνολογίας έχει ένα μερίδιο σε αυτό, αλλά είναι συχνά δύσκολο να συγκριθούν τα αποτελέσματα.
Ωστόσο θα ήταν σωστό να αμφισβητήσετε τη μελλοντική σημασία της εμμονής στην αυξανόμενη αύξηση της κατανεμημένης αποτελεσματικότητας για την κλιμάκωση – και βέβαια θα είχατε δίκιο. Ο Hillery Hunter, διευθυντής της επιτάχυνσης και της μνήμης των συστημάτων στη IBM Research, αναφέρει ότι όλα γίνονται για να φτάσουμε στο πολύ κοντά στο βέλτιστο.
“Έχετε πάρει περίπου όσο μπορείτε από το σύστημα και έτσι πιστεύουμε ότι είμαστε κοντά στο βέλτιστο. Το ερώτημα είναι πραγματικά το ποσοστό με το οποίο συνεχίζουμε να βλέπουμε βελτιώσεις και κατά πόσο θα δούμε ακόμα περαιτέρω στους συνολικούς χρόνους μάθησης “.
Η IBM δεν σταμάτησε μόνο με τα αποτελέσματα του ResNet-50. Η εταιρεία συνέχισε τη δοκιμαστική εργασία για την κατανεμημένη εκπαίδευση στο ResNet-101, ένα πολύ μεγαλύτερο και πιο σύνθετο μοντέλο οπτικής αναγνώρισης. Η ομάδα λέει ότι ήταν σε θέση να εκπαιδεύσει το ResNet-101 στο σύνολο δεδομένων ImageNet-22k με 256 GPU σε επτά ώρες, έναν αρκετά εντυπωσιακό χρόνο για την πρόκληση.
“Αυτό ωφελεί και τους λαούς που τρέχουν σε μικρότερα συστήματα”, πρόσθεσε ο Hunter. “Δεν χρειάζεστε 256 GPU και συστήματα τύπου 64 για να αποκτήσετε τα οφέλη.”
Η βιβλιοθήκη βαθιάς μάθησης στέκεται πολύ καλά με τα μεγάλα πλαίσια ανοικτής πηγής, όπως τα TensorFlow, Caffe και Torch. Όλα θα είναι διαθέσιμα μέσω του PowerAI αν θέλετε να δοκιμάσετε τα πράγματα για τον εαυτό σας.