Ο αμερικανικός όμιλος Nvidia φέρεται να απευθύνθηκε στη «σκιώδη βιβλιοθήκη» Anna’s Archive και να διαπραγματεύτηκε πρόσβαση σε εκατομμύρια πειρατικά αντίγραφα.
Τι δείχνουν τα δικαστικά έγγραφα
Σύμφωνα με δικαστικά έγγραφα που δημοσιεύτηκαν πρώτα από το blog Torrentfreak, η Nvidia φέρεται να επικοινώνησε με το αρχειακό project Anna’s Archive με στόχο την πρόσβαση σε εκατομμύρια πειρατικά βιβλία.
Όπως αναφέρεται στα έγγραφα που κατατέθηκαν στο Ομοσπονδιακό Περιφερειακό Δικαστήριο για τη Βόρεια Περιφέρεια της Καλιφόρνιας στο πλαίσιο επέκτασης αγωγής, μέλος της ομάδας στρατηγικής δεδομένων της Nvidia φέρεται να απευθύνθηκε απευθείας στο Anna’s Archive.
Γρήγορη πρόσβαση σε ~500 TB
Στην επικοινωνία, σύμφωνα με τα ίδια έγγραφα, συζητήθηκαν οι όροι για ιδιαίτερα γρήγορη πρόσβαση σε περίπου 500 terabyte δεδομένων από τη σκιώδη βιβλιοθήκη.
Το υπόβαθρο της συλλογικής αγωγής (Ιανουάριος 2024)
Η δημοσιοποίηση αυτών των εσωτερικών στοιχείων συνδέεται με συλλογική αγωγή (class action) που κατατέθηκε τον Ιανουάριο του 2024 από τρεις Αμερικανούς συγγραφείς κατά της Nvidia.
Οι ενάγοντες κατηγορούν τον κατασκευαστή GPU ότι χρησιμοποίησε έργα που προστατεύονται από πνευματικά δικαιώματα χωρίς άδεια για την εκπαίδευση των δικών του μοντέλων τεχνητής νοημοσύνης, όπως π.χ. στο πλαίσιο του NeMo, και ζητούν αποζημιώσεις.
Σύνδεση με το Books3
Τα έργα των συγγραφέων φέρονται να ήταν μέρος του συνόλου δεδομένων Books3, το οποίο περιελάμβανε πάνω από 196.000 βιβλία και συνδεόταν με τη σκιώδη βιβλιοθήκη Bibliotik.
Στους αρχικούς ενάγοντες έχουν ήδη προστεθεί και άλλοι, ενώ θεωρητικά θα μπορούσαν να ακολουθήσουν ακόμη και εκατοντάδες συγγραφείς.
«Καυτές» αλληλογραφίες μέσω e-mail
Την περασμένη Παρασκευή, οι ενάγοντες κατέθεσαν επέκταση της αγωγής στην Καλιφόρνια, η οποία περιλαμβάνει—μεταξύ άλλων—αλληλογραφία μεταξύ εργαζομένου της ομάδας στρατηγικής δεδομένων της Nvidia και του Anna’s Archive.
Στόχος: ενσωμάτωση περιεχομένου στα δεδομένα εκπαίδευσης LLM
Τα e-mail που επικαλείται το Torrentfreak φέρονται να δείχνουν ότι η Nvidia προσέγγισε στοχευμένα τη σκιώδη βιβλιοθήκη, ώστε να καταστεί εφικτή η ενσωμάτωση του περιεχομένου της στα δεδομένα εκπαίδευσης των Large Language Models (LLM) της εταιρείας.
Το αίτημα για «Schnellzugang» και το κόστος
Το Anna’s Archive φέρεται να ζήτησε πάνω από 10.000 δολάρια για έναν λεγόμενο «γρήγορο τρόπο πρόσβασης» (fast access) στα φιλοξενούμενα δεδομένα.
Κατόπιν, η Nvidia φέρεται να ρώτησε τις ακριβείς λεπτομέρειες ενός τέτοιου επιταχυνόμενου μηχανισμού πρόσβασης.
Ενημέρωση ότι τα δεδομένα είναι παράνομα – και εσωτερική έγκριση
Σύμφωνα με τα δικαστικά έγγραφα, οι υπεύθυνοι του Anna’s Archive φέρονται να ενημέρωσαν επίσης ότι τα ζητούμενα datasets αποκτήθηκαν και συντηρήθηκαν παράνομα.
Για τον λόγο αυτό, το Anna’s Archive φέρεται να ρώτησε αν υπάρχει εσωτερική έγκριση.
Η Nvidia φέρεται να την παρείχε μέσα σε μία εβδομάδα, μετά από την οποία το Anna’s Archive φέρεται να έδωσε πρόσβαση στα περίπου 500 TB πειρατικών βιβλίων.
Από τα έγγραφα δεν προκύπτει αν η Nvidia πλήρωσε τελικά για την πρόσβαση.
Σύμφωνα με το Torrentfreak, είναι η πρώτη φορά που δημοσιοποιούνται e-mails μεταξύ ενός μεγάλου αμερικανικού τεχνολογικού ομίλου όπως η Nvidia και του Anna’s Archive.
Κατηγορίες για χρήση και άλλων παράνομων datasets για εκπαίδευση LLM
Στο πλαίσιο της επέκτασης της αγωγής, η Nvidia κατηγορείται επίσης ότι—πέρα από το Books3—κατέβασε δεδομένα από τις σκιώδεις βιβλιοθήκες LibGen, Sci-Hub και Z-Library και τα χρησιμοποίησε για εκπαίδευση LLM.
Εργαλεία για λήψη του “The Pile”
Επιπλέον, υποστηρίζεται ότι η Nvidia διένειμε scripts και εργαλεία που θα μπορούσαν να επιτρέπουν σε εταιρικούς πελάτες να κατεβάσουν το “The Pile”.
Το “The Pile” είναι ένα open-source dataset άνω των 886 GB που χρησιμοποιείται για εκπαίδευση LLM και περιέχει, πέρα από έργα δημόσιου τομέα, και το πειρατικό dataset Books3.
Γιατί τέτοιες υποθέσεις είναι κρίσιμες για την αγορά της AI
Η υπόθεση αναδεικνύει μια από τις μεγαλύτερες «γκρίζες ζώνες» της σύγχρονης τεχνητής νοημοσύνης: τι θεωρείται νόμιμη συλλογή/χρήση δεδομένων όταν ένα μοντέλο εκπαιδεύεται σε τεράστιες βιβλιοθήκες κειμένων.
Ακόμη κι όταν ένα dataset κυκλοφορεί ευρέως στο διαδίκτυο, αυτό δεν σημαίνει ότι είναι και αδειοδοτημένο.
Για τις επιχειρήσεις, ο κίνδυνος δεν είναι μόνο νομικός (αγωγές, αποζημιώσεις, ασφαλιστικές εξαιρέσεις), αλλά και λειτουργικός: ένα μοντέλο που «εκπαιδεύτηκε λάθος» μπορεί να γίνει δύσκολο να εμπορευματοποιηθεί ή να υιοθετηθεί από μεγάλους πελάτες που απαιτούν συμμόρφωση.
Dataset governance: τι ζητούν πλέον οι εταιρικοί πελάτες
Τα τελευταία χρόνια βλέπουμε να ανεβαίνει η αξία της ιχνηλασιμότητας δεδομένων (data lineage): από πού προήλθε το υλικό, με ποιους όρους χρησιμοποιήθηκε, αν υπήρχε δικαίωμα αναπαραγωγής/εξόρυξης κειμένου, και αν διατηρούνται αποδείξεις (audit trails).
Σε αρκετές περιπτώσεις, οι πελάτες ζητούν συμβατικούς όρους όπως δηλώσεις και εγγυήσεις για τα δεδομένα εκπαίδευσης, καθώς και ρήτρες αποζημίωσης (indemnities) σε περίπτωση παραβίασης πνευματικών δικαιωμάτων.
Πιθανές εναλλακτικές αντί για «σκιώδη» δεδομένα
Για να μειωθεί ο κίνδυνος, αρκετοί οργανισμοί στρέφονται σε:
- Αδειοδοτημένα corpora (συμφωνίες με εκδότες/πλατφόρμες),
- Δημόσιο τομέα και έργα με σαφείς άδειες,
- Retrieval-Augmented Generation (RAG) με νόμιμες πηγές αντί για «κατάποση» ολόκληρων βιβλιοθηκών στην εκπαίδευση,
- Συνθετικά δεδομένα όπου αυτό είναι κατάλληλο (με προσοχή στην ποιότητα και στη μεροληψία).
Τι να παρακολουθήσουμε στη συνέχεια
Καθώς τέτοιες υποθέσεις προχωρούν, το ενδιαφέρον στρέφεται συνήθως σε δύο σημεία: (α) αν το δικαστήριο θα θεωρήσει ότι η χρήση για training καλύπτεται ή όχι από εξαιρέσεις/δόγματα όπως το fair use (στις ΗΠΑ), και (β) πόσο αυστηρές θα γίνουν οι απαιτήσεις διαφάνειας για τα δεδομένα εκπαίδευσης, κάτι που συζητείται έντονα και στην Ευρώπη στο ευρύτερο πλαίσιο κανονιστικής συμμόρφωσης.
