Οι ερευνητές κατάφεραν να κάνουν τις πληρωμένες εκδόσεις των βοηθών τεχνητής νοημοσύνης να αναπαράγουν με ακρίβεια έως και το 95% του πρώτου βιβλίου του Χάρι Πότερ λέξη προς λέξη.
Ακόμα και οι επί πληρωμή εκδόσεις των Μεγάλων Γλωσσικών Μοντέλων (LLMs) μπορούν να αναπαράγουν πιστά το περιεχόμενο βιβλίων.
Σε αυτό το συμπέρασμα καταλήγουν οι ερευνητές Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo και Percy Liang από τα πανεπιστήμια Stanford και Yale, σε ένα preprint paper που δημοσιεύτηκε στις 6 Ιανουαρίου 2026.
Εξέτασαν τα μοντέλα Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro και Grok 3 για να διαπιστώσουν αν μπορούν να αναπαράγουν υλικό που προστατεύεται από πνευματικά δικαιώματα. Σύμφωνα με τους ερευνητές, αυτό δεν είναι δεδομένο λόγω των μέτρων ασφαλείας που εφαρμόζονται στα εμπορικά μοντέλα.
“Συνολικά, καταφέραμε να δείξουμε ότι είναι δυνατή η εξαγωγή μεγάλων τμημάτων αποθηκευμένων κειμένων που προστατεύονται από πνευματικά δικαιώματα και από τα τέσσερα γλωσσικά μοντέλα παραγωγής, με την επιτυχία να ποικίλλει ανάλογα με τις συνθήκες της δοκιμής”, γράφουν οι συγγραφείς της μελέτης.
Το GPT-4.1 απέδωσε μόνο το 4%
Ενώ στο Claude 3.7 Sonnet χρειάστηκε “jailbreak” (παράκαμψη ασφαλείας) για την εξαγωγή του 95,8 τοις εκατό του μυθιστορήματος Ο Χάρι Πότερ και η Φιλοσοφική Λίθος, το Gemini 2.5 Pro και το Grok 3 απέδωσαν το 76,8 και το 70,3 τοις εκατό του βιβλίου αντίστοιχα, ακόμη και χωρίς jailbreak.
Το πιο ανθεκτικό αποδείχθηκε το GPT-4.1, το οποίο αναπαρήγαγε μόνο το τέσσερα τοις εκατό του μυθιστορήματος ακόμα και μετά από διάφορα αιτήματα.
Οι ερευνητές κοινοποίησαν τα ευρήματά ους στις Anthropic, Google Deepmind, OpenAI και xAI και διαπίστωσαν ότι οι μέθοδοι που χρησιμοποιήθηκαν εξακολουθούσαν να λειτουργούν σε ορισμένους παρόχους μετά τη λήξη της 90ήμερης προθεσμίας αναφοράς. Δεν αναφέρθηκε ποιες εταιρείες δεν έλαβαν μέτρα.
Σημαντικά ευρήματα για τη συζήτηση περί πνευματικών δικαιωμάτων
Αναφέρθηκε επίσης ότι αφήνουν τη νομική αξιολόγηση σε άλλους, αλλά τα ευρήματα θα μπορούσαν να είναι σημαντικά για την τρέχουσα συζήτηση περί πνευματικών δικαιωμάτων.
Το ποσοστό του αναπαραγόμενου περιεχομένου έχει μεγάλη σημασία στις ΗΠΑ, καθώς κατά την εφαρμογή του κανονισμού “Fair Use” (ορθή χρήση) εξετάζεται και η έκταση του αποσπάσματος που χρησιμοποιείται σε σχέση με το συνολικό έργο.
Σε προηγούμενη μελέτη, οι ερευνητές εξέτασαν δημόσια διαθέσιμα γλωσσικά μοντέλα και διαπίστωσαν ότι το Llama 3.1 της Meta μπορεί να αναπαράγει λέξη προς λέξη σχεδόν το μισό του πρώτου βιβλίου του Χάρι Πότερ.
Η μηχανική της “Απομνημόνευσης” και ο νομικός πόλεμος
Η αποκάλυψη ότι μοντέλα όπως το Claude 3.7 και το Gemini 2.5 μπορούν να αναπαράγουν ολόκληρα λογοτεχνικά έργα δεν είναι απλώς ένα τεχνικό αξιοπερίεργο, αλλά αγγίζει τον πυρήνα της λειτουργίας της Τεχνητής Νοημοσύνης και της μελλοντικής της βιωσιμότητας.
Για να κατανοήσουμε τη σημασία αυτής της μελέτης, πρέπει να εξετάσουμε βαθύτερα το φαινόμενο της “απομνημόνευσης” (memorization) στα νευρωνικά δίκτυα και τις συνέπειές του.
Γιατί τα LLMs “θυμούνται” τα βιβλία;
Θεωρητικά, τα γλωσσικά μοντέλα δεν λειτουργούν ως βάσεις δεδομένων που αποθηκεύουν κείμενα προς ανάκληση.
Αντ’ αυτού, μαθαίνουν στατιστικές πιθανότητες συσχέτισης λέξεων. Ωστόσο, όταν ένα κείμενο (όπως ο Χάρι Πότερ) εμφανίζεται χιλιάδες φορές στο σύνολο εκπαίδευσης (training data) —μέσω fan fiction, φόρουμ συζητήσεων και πειρατικών ψηφιακών βιβλιοθηκών— το μοντέλο τείνει να “υπερ-προσαρμόζεται” (overfitting) σε αυτό.
Αυτό σημαίνει ότι τα “βάρη” (weights) του δικτύου για τις συγκεκριμένες ακολουθίες λέξεων γίνονται τόσο ισχυρά, που το μοντέλο δεν παράγει απλώς παρόμοιο κείμενο, αλλά ανασύρει το πρωτότυπο σχεδόν ατόφιο.
Η τέχνη του Jailbreaking
Η μελέτη αναδεικνύει τη σημασία των τεχνικών “Jailbreak”. Οι εταιρείες AI χρησιμοποιούν φίλτρα ευθυγράμμισης (alignment) που εκπαιδεύουν το μοντέλο να αρνείται εντολές όπως “γράψε μου το πρώτο κεφάλαιο του Χάρι Πότερ”. Οι ερευνητές, ωστόσο, χρησιμοποιούν περίπλοκες προτροπές (prompts).
Για παράδειγμα, αντί να ζητήσουν το κείμενο άμεσα, μπορεί να ζητήσουν από το μοντέλο να παίξει ένα παιχνίδι ρόλων όπου “συμπληρώνει τα κενά” ενός κειμένου ή να μεταφράσει το κείμενο σε μια σπάνια γλώσσα και μετά ξανά στα Αγγλικά.
Το γεγονός ότι το Claude 3.7 χρειάστηκε jailbreak ενώ το Gemini 2.5 όχι, δείχνει τη διαφορά στη φιλοσοφία ασφαλείας και την αρχιτεκτονική των φίλτρων μεταξύ Anthropic και Google.
Ο Νομικός εφιάλτης του “Fair Use”
Νομικά, αυτή η δυνατότητα ακριβούς αναπαραγωγής είναι καταστροφική για τις εταιρείες AI. Η υπερασπιστική γραμμή εταιρειών όπως η OpenAI και η Google απέναντι σε αγωγές από τους New York Times ή την Authors Guild βασίζεται στο δόγμα του “Fair Use” (Ορθής Χρήσης). Υποστηρίζουν ότι η χρήση των έργων είναι “μετασχηματιστική” (transformative) — δηλαδή ότι η AI μαθαίνει από αυτά για να δημιουργήσει κάτι νέο.
Όταν όμως το μοντέλο μπορεί να “ξεράσει” (regurgitate) το 95% ενός προστατευμένου έργου, το επιχείρημα περί μετασχηματισμού καταρρέει. Αυτό αποδεικνύει ότι το μοντέλο μπορεί να λειτουργήσει ως υποκατάστατο του πρωτότυπου προϊόντος, προκαλώντας άμεση οικονομική ζημία στον δημιουργό.
Το Μέλλον: Machine Unlearning
Τα ευρήματα αυτά πιέζουν τη βιομηχανία προς μια νέα κατεύθυνση: το “Machine Unlearning”. Οι εταιρείες δεν αρκεί πλέον να βάζουν φίλτρα στην έξοδο (output filters).
Θα αναγκαστούν να αναπτύξουν αλγόριθμους που μπορούν να “ξεχάσουν” συγκεκριμένα δεδομένα από τα βάρη του μοντέλου χωρίς να χρειάζεται πλήρης επανεκπαίδευση, μια διαδικασία που είναι τεχνικά εξαιρετικά δύσκολη και δαπανηρή. Μέχρι τότε, η μάχη μεταξύ των ερευνητών ασφαλείας και των νομικών τμημάτων θα συνεχίζεται με αμείωτη ένταση.
