Χρήση πειρατικών βιβλίων στην εκπαίδευση των μοντέλων τεχνητής νοημοσύνης Llama
Η Meta φέρεται να κατέβασε παράνομα πάνω από 81 terabytes (TB) βιβλίων μέσω torrents, προκειμένου να εκπαιδεύσει τα γλωσσικά της μοντέλα τεχνητής νοημοσύνης (AI) που φέρουν την ονομασία Llama. Η εταιρεία φρόντισε να εκτελέσει τη διαδικασία αυτή με όσο το δυνατόν μικρότερο αποτύπωμα, ώστε να αποφύγει την ανίχνευση.
“Το να κατεβάζεις torrents από έναν εταιρικό υπολογιστή δεν φαίνεται σωστό”, είχε γράψει το 2023 σε ένα εσωτερικό μήνυμα ο μηχανικός της Meta, Nikolay Bashlykov. Το μήνυμα αυτό βγήκε στη δημοσιότητα στο πλαίσιο νομικής διαμάχης μεταξύ της Meta και μιας ομάδας συγγραφέων, οι οποίοι την κατηγορούν για παραβίαση πνευματικών δικαιωμάτων.
Μαζική λήψη δεδομένων από αμφιλεγόμενες πηγές
Σε μια εσωτερική επικοινωνία μέσω email, ένας υπάλληλος της Meta φέρεται να δήλωσε ότι η εταιρεία είχε ήδη συλλέξει 81,7 TB υλικού από ιστότοπους όπως το Internet Archive, η Z-Library και η Library Genesis (LibGen). Ωστόσο, ανέφερε πως η λήψη επιπλέον δεδομένων παρουσίαζε καθυστερήσεις λόγω του περιορισμένου αριθμού seeders (χρηστών που μοιράζονται το περιεχόμενο).
Απόκρυψη της διαδικασίας seeding
Η Meta φαίνεται πως επιχείρησε να αποκρύψει το γεγονός ότι διαμοιράζει (seeding) τα ληφθέντα δεδομένα. Σύμφωνα με δικαστική κατάθεση του Michael Clark, project manager της Meta, ο Bashlykov τροποποίησε τις ρυθμίσεις των torrents ώστε να περιοριστεί στο ελάχιστο η μεταφόρτωση (seeding) των αρχείων σε άλλους χρήστες.
Για την αποφυγή νομικών συνεπειών, οι υπάλληλοι είχαν λάβει οδηγίες να μην πραγματοποιούν λήψεις μέσω των εταιρικών διακομιστών της Meta (όπως οι υποδομές του Facebook). Όπως δήλωσε ο Frank Zhang, ερευνητής AI της εταιρείας, στόχος ήταν να μην εντοπιστεί η δραστηριότητα αυτή από τους ιδιοκτήτες των πνευματικών δικαιωμάτων.
Η υπερασπιστική γραμμή της Meta
Μέχρι στιγμής, η Meta αρνείται τις κατηγορίες και υποστηρίζει ότι η χρήση των δεδομένων αυτών δεν συνιστά παράνομη διανομή αλλά ανήκει στη λογική του Fair Use. Ωστόσο, εκτός από τη χρήση των δεδομένων για την εκπαίδευση των AI μοντέλων, το γεγονός ότι ίσως συμμετείχε στη διανομή πειρατικών αντιγράφων μέσω torrents, φέρνει την εταιρεία σε ακόμα πιο δύσκολη θέση.
Η υπόθεση αυτή ενδέχεται να έχει ευρύτερες συνέπειες για τη νομιμότητα της εκπαίδευσης των γλωσσικών μοντέλων τεχνητής νοημοσύνης, καθώς θέτει ερωτήματα σχετικά με τα πνευματικά δικαιώματα και τα όρια του Fair Use.
Τι σημαίνει αυτό για το μέλλον της τεχνητής νοημοσύνης;
Η διαμάχη αυτή αποτελεί ένα ακόμα επεισόδιο στη συζήτηση για το αν οι μεγάλες τεχνολογικές εταιρείες πρέπει να έχουν ελεύθερη πρόσβαση σε προστατευμένο περιεχόμενο για την εκπαίδευση AI μοντέλων. Αν η Meta χάσει τη δικαστική μάχη, ενδέχεται να δημιουργηθεί δεδικασμένο που θα επηρεάσει όλη τη βιομηχανία της τεχνητής νοημοσύνης.
Αναλυτές εκτιμούν ότι, στο μέλλον, οι εταιρείες ανάπτυξης AI πιθανόν να χρειαστεί να εξασφαλίζουν εμπορικές άδειες για τη χρήση βιβλίων και άλλου προστατευμένου υλικού, γεγονός που θα μπορούσε να επιβραδύνει σημαντικά την εξέλιξη των μοντέλων AI.