- Η Microsoft διέγραψε blog post μετά από αντιδράσεις, επειδή παρέπεμπε σε dataset με τα βιβλία Harry Potter για εκπαίδευση LLM.
- Το dataset στο Kaggle ήταν λανθασμένα σημειωμένο ως δημόσιος τομέας και αφαιρέθηκε αφού επισημάνθηκε το ζήτημα.
- Η υπόθεση αναζωπύρωσε τη συζήτηση για copyright, fair use και ευθύνη όταν εταιρικά παραδείγματα «σπρώχνουν» αμφίβολα training data.
Τι συνέβη με το blog της Microsoft
Η Microsoft κατέβασε ένα blog post, αφού χρήστες σε thread του Hacker News υποστήριξαν ότι ενθάρρυνε developers να χρησιμοποιήσουν πειρατικά βιβλία Harry Potter για εκπαίδευση μοντέλων τεχνητής νοημοσύνης.
Το άρθρο ήταν γραμμένο (Νοέμβριος 2024) από την senior product manager Pooja Kamath και προωθούσε δυνατότητα που, σύμφωνα με το κείμενο, βοηθά να προσθέσεις generative AI σε εφαρμογές με λίγες γραμμές κώδικα μέσω Azure SQL DB, LangChain και LLMs.
Για να δώσει «ελκυστικά και κατανοητά παραδείγματα», το blog πρότεινε ως «γνωστό dataset» τα βιβλία του Harry Potter, παρουσιάζοντάς τα ως υλικό που «θα έχει απήχηση σε ευρύ κοινό».
Η αρχική ανάρτηση διαγράφηκε μετά το backlash, ενώ το dataset στο Kaggle αφαιρέθηκε επίσης, αφού επισημάνθηκε ότι η σήμανση αδειοδότησης ήταν λάθος.
Το dataset στο Kaggle και η «λάθος» σήμανση δημόσιου τομέα
Το blog παρέπεμπε σε dataset του Kaggle που περιλάμβανε και τα επτά βιβλία της σειράς, το οποίο ήταν διαθέσιμο online επί χρόνια και είχε επισημανθεί λανθασμένα ως public domain.
Σύμφωνα με τους όρους του Kaggle, οι δικαιούχοι μπορούν να στείλουν ειδοποιήσεις για περιεχόμενο που παραβιάζει δικαιώματα, ενώ οι επαναλαμβανόμενοι παραβάτες μπορεί να αντιμετωπίσουν κυρώσεις, όπως αναστολές λογαριασμών.
Σχολιαστές στο Hacker News εκτίμησαν ότι το dataset «περνούσε κάτω από το ραντάρ», επειδή είχε περίπου 10.000 downloads σε βάθος χρόνου, χωρίς να τραβήξει την προσοχή της J.K. Rowling, που είναι γνωστό ότι προστατεύει έντονα τα δικαιώματα του franchise.
Ο uploader, Shubham Maindola (data scientist στην Ινδία, χωρίς εμφανή σύνδεση με τη Microsoft), δήλωσε ότι «το dataset σημειώθηκε ως Public Domain από λάθος» και ότι δεν υπήρχε πρόθεση παραπλάνησης για το καθεστώς αδειοδότησης.
Η ένδειξη «public domain» σε μια πλατφόρμα δεν αποτελεί από μόνη της νομική απόδειξη ότι ένα έργο είναι ελεύθερο για χρήση, ειδικά όταν πρόκειται για σύγχρονα best sellers.
Πως παρουσιαζόταν η χρήση των βιβλίων για training
Το blog περιέγραφε δύο βασικά σενάρια χρήσης για τους fans, όπως ένα σύστημα Q&A που επιστρέφει «πλούσιες σε συμφραζόμενα απαντήσεις» και τη δημιουργία «νέου AI-driven fan fiction» που θα «ενθουσιάσει τους Potterheads».
Ως ροή εργασίας, προτεινόταν να γίνει download του dataset και στη συνέχεια να ανέβουν τα αρχεία κειμένου στο Azure Blob Storage, ώστε να χρησιμοποιηθούν για εκπαίδευση ή/και ανάκτηση αποσπασμάτων.
Το ίδιο το blog περιείχε παραδείγματα που φαίνεται να βασίζονταν σε dataset που είχε ανέβει στο Azure και περιλάμβανε μόνο το πρώτο βιβλίο, Harry Potter and the Sorcerer’s Stone.
Παράδειγμα Q&A που περιέγραφε το blog
Στο σενάριο Q&A, ένα query όπως «Wizarding World snacks» ανακαλούσε σχετικό απόσπασμα όπου ο Harry εντυπωσιάζεται από περίεργες λιχουδιές, όπως τα Bertie Bott’s Every Flavor Beans και τα chocolate frogs.
Ένα άλλο prompt, όπως «Πώς ένιωσε ο Harry όταν έμαθε πρώτη φορά ότι είναι μάγος;», έδινε απάντηση που παρέπεμπε σε πρώιμα αποσπάσματα του βιβλίου, αντί να «μαντεύει» χωρίς βάση.
Παράδειγμα fan fiction για προώθηση προϊόντος
Η Kamath περιέγραψε και ένα πιο «εντυπωσιακό» use case, όπου το μοντέλο μπορεί να «εξερευνήσει νέες περιπέτειες» και να παράξει ακόμα και εναλλακτικά φινάλε, χτενίζοντας το dataset για «συμφραζόμενα παρόμοια» αποσπάσματα.
Στο παράδειγμα, ζήτησε από το μοντέλο να γράψει ιστορία όπου ο Harry γνωρίζει έναν νέο φίλο στο Hogwarts Express, ο οποίος του εξηγεί το Native Vector Support της Microsoft στο SQL «στον κόσμο των Muggles».
Η ιστορία συνέδεε τη λειτουργία με μια «μαγική» αναλογία, σαν ξόρκι που σε βοηθά να βρεις ακαριαία αυτό που χρειάζεσαι ανάμεσα σε χιλιάδες επιλογές, στοχεύοντας σε use cases όπως machine learning, AI και recommendation systems.
Για να «δέσει» ακόμα περισσότερο την προώθηση με το franchise, δημιουργήθηκε και εικόνα με τον Harry και τον νέο φίλο, πάνω στην οποία εμφανιζόταν και λογότυπο της Microsoft.
Για demos προτίμησε datasets με ξεκάθαρη άδεια (π.χ. public domain, CC) και κράτα τεκμηρίωση για την προέλευση και τους όρους χρήσης.
Γιατί το θέμα άγγιξε άμεσα τα πνευματικά δικαιώματα
Η καθηγήτρια νομικής Cathay Y. N. Smith (Chicago-Kent College of Law) σημείωσε ότι η Kamath ίσως δεν συνειδητοποίησε πως τα βιβλία είναι πολύ πρόσφατα για να ανήκουν σε δημόσιο τομέα, ειδικά αν είδε τη σήμανση ως public domain από μια «αξιόπιστη» πλατφόρμα.
Η ίδια τόνισε ότι τόσο η «αναπαραγωγή» αποσπασμάτων όσο και η παραγωγή fan fiction μπορεί να εγείρουν ζητήματα, επειδή συχνά εμπλέκουν «εκφραστικά στοιχεία», προστατευμένους χαρακτήρες ή συγκεκριμένες ακολουθίες πλοκής.
Παρότι υπάρχει γκρίζα ζώνη, η Smith ανέφερε ότι, βλέποντας το blog, «θα ανησυχούσε», αλλά δεν θα το χαρακτήριζε αυτόματα ως παραβίαση, καθώς τα δικαστήρια ακόμη «μετράνε» τα όρια του fair use στην εκπαίδευση μοντέλων.
Γιατί η Microsoft «έκανε έξυπνα» που το απέσυρε
Στο Hacker News, σχολιαστές είπαν ότι είναι δύσκολο να πιστέψει κάποιος πως ένα τόσο γνωστό franchise είναι public domain, ενώ άλλοι υποστήριξαν ότι το post ήταν «προβληματικό» επειδή ενθάρρυνε download υλικού που παραβιάζει δικαιώματα.
Το blog είχε ανέβει σε περίοδο όπου οι εταιρείες AI άρχισαν να αντιμετωπίζουν αγωγές για training σε πειρατικό υλικό και για outputs που αναπαράγουν έργα «λέξη προς λέξη».
Η Smith εκτίμησε ότι η Microsoft «μάλλον έκανε έξυπνα» που απέσυρε το post, επειδή τα δικαστήρια μεν έχουν πει γενικά ότι training σε βιβλία μπορεί να είναι fair use, αλλά συνεχίζουν να εξετάζουν ειδικά το θέμα των πειρατικών training materials.
Η Microsoft δεν σχολίασε, ενώ το Kaggle επίσης δεν απάντησε σε αίτημα σχολιασμού, σύμφωνα με το ρεπορτάζ που κατέγραψε την υπόθεση.
Το επίμαχο dataset φέρεται να είχε ξεπεράσει τα 10.000 downloads, πριν αφαιρεθεί, γεγονός που ενίσχυσε την κριτική για πιθανή «διάδοση» παραβιαστικού υλικού.
Υπήρχε πιθανός κίνδυνος ευθύνης για τη Microsoft;
Η Smith ανέφερε ότι, αν προέκυπτε ερώτημα για το αν η εταιρεία γνώριζε ότι χρησιμοποιούσε πειρατικά βιβλία για να εκπαιδεύσει τα example models, το fair use θα μπορούσε να είναι «δύσκολο επιχείρημα».
Παράλληλα, σημείωσε ότι η Microsoft θα μπορούσε να προβάλει επιχειρήματα, όπως ότι ο οδηγός είχε εκπαιδευτικό σκοπό, όμως το γεγονός ότι το post έμεινε online για περίπου έναν χρόνο θα μπορούσε να μετρήσει αρνητικά.
Η ίδια περιέγραψε και το ενδεχόμενο «δευτερογενούς» συμβολής σε παραβίαση, με τη λογική ότι το post έλεγε πρακτικά «πάρε αυτό το υλικό και χρησιμοποίησέ το στο σύστημά μας», ενθαρρύνοντας τρίτους να κάνουν training.
Δεν ήταν το μόνο παράδειγμα: αναφορά και σε Asimov
Στο ίδιο thread επισημάνθηκε ότι δεν στοχεύτηκε μόνο το Harry Potter, καθώς υπήρχε link και σε ξεχωριστό Azure sample που αφορούσε τη σειρά Foundation του Isaac Asimov, η οποία επίσης δεν είναι public domain.
Κάποιοι σχολιαστές τόνισαν ότι θα μπορούσε να είχε χρησιμοποιηθεί οποιοδήποτε άλλο dataset, ακόμα και αυθεντικά public domain μυθιστορήματα, αντί για έργα που ανήκουν σε μεγάλες εταιρείες και έχουν ενεργά δικαιώματα.
Πίνακες: τι γνωρίζουμε μέχρι τώρα
Χρονολόγιο βασικών γεγονότων
| Στάδιο | Τι έγινε | Γιατί έχει σημασία |
|---|---|---|
| Νοέμβριος 2024 | Δημοσίευση blog από Pooja Kamath με demo AI σε Azure. | Το demo στηρίχθηκε σε dataset με έργο που προστατεύεται από copyright. |
| 2025 (μετά από συζήτηση) | Backlash σε Hacker News και κριτική για «ενθάρρυνση πειρατείας». | Αναδεικνύεται ο κίνδυνος κακών πρακτικών σε εταιρικά tutorials. |
| Αφαίρεση περιεχομένου | Διαγραφή blog και αφαίρεση dataset από Kaggle. | Περιορίζεται η έκθεση, αλλά μένει η συζήτηση για ευθύνη και έλεγχο. |
Πιθανά σημεία ρίσκου που συζητήθηκαν
| Θέμα | Πού «κολλάει» | Τι να προσέξει μια ομάδα |
|---|---|---|
| Σήμανση public domain | Η ένδειξη μπορεί να είναι λανθασμένη ή μη δεσμευτική. | Έλεγχος άδειας από την πηγή και τεκμηρίωση. |
| Training σε πειρατικό υλικό | Το fair use γίνεται πιο δύσκολο όταν η προέλευση είναι παράνομη. | Αποφυγή datasets αμφίβολης προέλευσης, έλεγχος provenance. |
| Outputs που «θυμίζουν πολύ» το πρωτότυπο | Κίνδυνος αναπαραγωγής προστατευμένων στοιχείων. | Guardrails, φίλτρα, πολιτικές για αποσπάσματα και χαρακτήρες. |
| Εταιρική προώθηση με IP τρίτων | Σύνδεση brand με προστατευμένο franchise. | Νομικός έλεγχος marketing demos και assets (κείμενα/εικόνες). |
Πρακτικός οδηγός: πως να επιλέγεις νόμιμα datasets για LLM
Αν φτιάχνεις demo, tutorial ή εσωτερικό proof of concept, το κρίσιμο σημείο είναι να μη βασίζεσαι σε «δημοφιλή» δεδομένα, αλλά σε δεδομένα με σαφή δικαιώματα και καθαρή αλυσίδα προέλευσης.
Checklist πριν κάνεις training ή RAG
| Έλεγχος | Τι σημαίνει πρακτικά |
|---|---|
| Άδεια χρήσης | Διαβάζεις τους όρους (π.χ. CC, commercial use, attribution) και κρατάς screenshot/URL/έκδοση. |
| Provenance | Ξέρεις από πού προήλθε το κείμενο και αν η λήψη του ήταν νόμιμη, όχι απλώς ότι «υπάρχει online». |
| Χρήση σε marketing | Άλλοι κανόνες ισχύουν όταν το demo προωθεί προϊόν, ειδικά αν «δανείζεται» χαρακτήρες και ονόματα. |
| Έλεγχος εξόδων | Βάζεις κανόνες ώστε να αποφεύγονται μεγάλα αποσπάσματα και αναπαραγωγή προστατευμένων στοιχείων. |
Συμπέρασμα
Η διαγραφή του blog της Microsoft δείχνει πόσο εύκολα ένα «καλό» τεχνικό demo μπορεί να μετατραπεί σε ρίσκο πνευματικών δικαιωμάτων, όταν στηρίζεται σε δημοφιλή αλλά ακατάλληλα datasets.
Το πιο ουσιαστικό μάθημα για teams που χτίζουν AI προϊόντα είναι ότι η επιλογή training data δεν είναι μόνο τεχνικό θέμα, αλλά και θέμα συμμόρφωσης, ηθικής και εταιρικής φήμης.
