- Στις ΗΠΑ αναπτύσσεται μια νέα αγορά, όπου εταιρείες ai αγοράζουν εσωτερικά δεδομένα από εταιρείες που έχουν τεθεί σε εκκαθάριση.
- Ιδιαίτερα πολύτιμα θεωρούνται τα Slack αρχεία, τα emails και ο πηγαίος κώδικας, επειδή περιέχουν αυθεντικό υλικό για εκπαίδευση μοντέλων.
- Η πρακτική αυτή ανοίγει σοβαρά ερωτήματα για την ιδιωτικότητα, τη νομιμότητα και το αν η ανωνυμοποίηση αρκεί πραγματικά.
Οι εταιρείες AI αγοράζουν εσωτερικά δεδομένα από διαλυμένες εταιρείες
Στις ΗΠΑ έχει αναπτυχθεί ένα πραγματικό χρυσοθηρικό κύμα γύρω από την εκκαθάριση αποτυχημένων εταιρειών, καθώς οι εταιρείες AI αγοράζουν τα εσωτερικά τους δεδομένα.
Η ζήτηση επικεντρώνεται σε αρχεία που δεν είναι δημόσια, αλλά προέρχονται από την καθημερινή εργασία των εργαζομένων και περιέχουν αληθινή επιχειρησιακή γνώση.
Οι αμερικανικές εταιρείες που βοηθούν στη διαδικασία εκκαθάρισης μπορούν πλέον να πουλούν ολοένα και συχνότερα την εσωτερική επικοινωνία των πελατών τους σε εταιρείες AI, οι οποίες θέλουν να τα χρησιμοποιήσουν για την εκπαίδευση των μοντέλων τους.
Αυτό αναφέρει το αμερικανικό περιοδικό Forbes, επικαλούμενο εταιρεία που έχει λάβει για σχεδόν 100 σύνολα δεδομένων πάνω από 1 εκατομμύριο δολάρια.
Σύμφωνα με την εταιρεία SimpleClosure, οι συνήθεις τιμές για αρχεία Slack, emails, πηγαίο κώδικα και παρόμοιο υλικό κυμαίνονται μεταξύ 10.000 και 100.000 δολαρίων.
Ιδιαίτερα υψηλά ποσά καταβάλλονται για σύνολα δεδομένων που προέρχονται από εταιρείες του κλάδου της υγείας ή των οικονομικών υπηρεσιών. Πριν από την πώληση, αφαιρούνται όλα τα προσωπικά δεδομένα, όπως υποστηρίζει η εταιρεία.
Τα πιο ακριβά σύνολα δεδομένων δεν είναι πάντα τα μεγαλύτερα. Συχνά αξίζει περισσότερο το υλικό που περιέχει αυθεντικό επιχειρησιακό πλαίσιο, επειδή δείχνει πώς μιλούν και συνεργάζονται πραγματικοί εργαζόμενοι.
Γιατί τα εσωτερικά δεδομένα έχουν αξία
Το Forbes υπενθυμίζει ότι το περιεχόμενο που γράφεται από ανθρώπους είναι εξαιρετικά πολύτιμο για την εκπαίδευση των μοντέλων AI.
Όμως το υλικό που είναι ήδη διαθέσιμο στο διαδίκτυο, όπως εκείνο της Wikipedia ή του Reddit, έχει ουσιαστικά εξαντληθεί για τέτοιου είδους χρήση ήδη από το 2024.
Αντίθετα, όσα γράφουν οι εργαζόμενοι στο πλαίσιο της δουλειάς τους μέσα σε μια εταιρεία είναι πιο κατάλληλα για AI που προορίζεται να λειτουργήσει ακριβώς σε αυτό το περιβάλλον.
Εκ των πραγμάτων είναι δύσκολο για τις εταιρείες AI να τα αποκτήσουν, παρά μόνο αν πληρώσουν, αφού δεν μπορούν να τα αντλήσουν από δημόσιες πηγές.
Γι’ αυτό και οι εκκαθαρίσεις εταιρειών έχουν μετατραπεί σε ξεχωριστό επιχειρηματικό πεδίο.
Η SimpleClosure δημιούργησε για τον λόγο αυτό την πλατφόρμα Asset Hub, όπου οι εταιρείες μπορούν, μετά το κλείσιμό τους, να πουλήσουν τέτοιο εσωτερικό περιεχόμενο.
Η λογική είναι απλή: όταν μια επιχείρηση διαλύεται, το αρχείο της δεν χάνει αμέσως την εμπορική αξία του, ειδικά αν περιέχει δεδομένα που μπορούν να εκπαιδεύσουν πιο ρεαλιστικά μοντέλα.
| Τύπος δεδομένων | Τυπική αξία | Γιατί ενδιαφέρει τις εταιρείες ai |
|---|---|---|
| Slack αρχεία | 10.000–100.000 δολάρια | Δείχνουν πραγματική συνεργασία ομάδων και εσωτερική γλώσσα |
| Emails | 10.000–100.000 δολάρια | Περιέχουν αποφάσεις, συμφραζόμενα και ροές εργασίας |
| Πηγαίος κώδικας | 10.000–100.000 δολάρια | Βοηθά στην εκπαίδευση εργαλείων ανάπτυξης και debugging |
| Υγεία / χρηματοοικονομικά | Υψηλότερα ποσά | Τα δεδομένα είναι πιο εξειδικευμένα και πιο δυσεύρετα |
Η SimpleClosure αναφέρει ότι έχει διαθέσει σχεδόν 100 σύνολα δεδομένων, αποφέροντας πάνω από 1 εκατομμύριο δολάρια. Η αγορά αυτή δεν είναι πια πειραματική, αλλά δείχνει σαφή εμπορική δυναμική.
Πως στήθηκε η αγορά
«Έχεις την αίσθηση ότι σε αυτές τις εταιρείες επικρατεί τώρα ένας πραγματικός χρυσοθηρικός πυρετός, επειδή προσπαθούν να αποκτήσουν δεδομένα από τον πραγματικό κόσμο», λέει ο Dori Yona, διευθύνων σύμβουλος της SimpleClosure, στο Forbes.
Σύμφωνα με τον ίδιο, το ενδιαφέρον είναι τεράστιο, επειδή τα δεδομένα από κλειστές εταιρείες είναι σπάνια, αυθεντικά και δύσκολα προσβάσιμα.
Η εταιρεία υποστηρίζει ότι εργάζεται αυστηρά για να διασφαλίσει την προστασία δεδομένων.
Ωστόσο, η πρακτική αυτή έχει ήδη προκαλέσει αντιδράσεις, κυρίως επειδή τα σύνολα δεδομένων που πωλούνται δεν είναι γενικά ή ανώνυμα με την κλασική έννοια, αλλά προέρχονται από πραγματικά άτομα με συγκεκριμένες επαγγελματικές σχέσεις και ιστορικό.
Με άλλα λόγια, η αγορά δεν βασίζεται μόνο σε τεχνικό ενδιαφέρον. Βασίζεται και σε μια νέα κατανόηση της εταιρικής πληροφορίας ως περιουσιακού στοιχείου, το οποίο μπορεί να μετατραπεί σε έσοδο ακόμη και όταν η επιχείρηση παύει να λειτουργεί.
Αυτό είναι και το στοιχείο που κάνει την αγορά τόσο ελκυστική για τους αγοραστές, αλλά και τόσο αμφιλεγόμενη για τους νομικούς και τους ειδικούς απορρήτου.
Γιατί προκαλεί αντιδράσεις
Το Forbes παραθέτει τον Marc Rotenberg, ιδρυτή του Center for AI and Digital Policy, ο οποίος επισημαίνει ότι δεν είναι ξεκάθαρο αν οι εταιρείες έχουν το δικαίωμα να πουλήσουν τέτοια δεδομένα των εργαζομένων τους. «Θεωρώ ότι τα προβλήματα προστασίας δεδομένων σε αυτό το πλαίσιο είναι αρκετά σοβαρά», σημειώνει.
Το βασικό πρόβλημα είναι ότι δεν μιλάμε για γενικές πληροφορίες, αλλά για δεδομένα που μπορούν να συνδεθούν με ταυτοποιήσιμα πρόσωπα.
Ακόμη και όταν αφαιρεθούν ονόματα και άλλα αναγνωριστικά στοιχεία, παραμένει ο κίνδυνος η ai να αναπαράγει τις αρχικές πληροφορίες ή να αποκαλύψει έμμεσα ευαίσθητο περιεχόμενο από τα συμφραζόμενα.
Η ανωνυμοποίηση δεν εγγυάται πάντα πλήρη ασφάλεια. Αν ένα σύνολο δεδομένων είναι πλούσιο σε συμφραζόμενα, μπορεί να επιτρέψει εκ νέου ταυτοποίηση ή να αποκαλύψει ευαίσθητα μοτίβα.
| Κίνδυνος | Γιατί έχει σημασία | Τι πρέπει να ελεγχθεί |
|---|---|---|
| Ταυτοποίηση προσώπων | Μπορεί να αποκαλυφθούν εργαζόμενοι ή συνεργάτες | Ανώνυμοποίηση, ψευδωνυμοποίηση, τεχνικός έλεγχος |
| Αναπαραγωγή δεδομένων | Το μοντέλο μπορεί να αποθηκεύσει ή να αναπαράγει φράσεις | Guardrails, filtering, αξιολόγηση εξόδου |
| Νομική αβεβαιότητα | Δεν είναι πάντα σαφές ποιος έχει δικαίωμα πώλησης | Συμβάσεις, συγκαταθέσεις, έλεγχος συμμόρφωσης |
| Ηθικό ρίσκο | Η εταιρική εμπιστοσύνη μπορεί να διαβρωθεί | Εσωτερική πολιτική, διαφάνεια, λογοδοσία |
Τι σημαίνει αυτό για τις επιχειρήσεις
Η νέα αγορά δεν αφορά μόνο τις εταιρείες ai, αλλά και τις επιχειρήσεις που βρίσκονται στο στάδιο της εκκαθάρισης. Όσο πιο καλά οργανωμένο είναι το αρχείο μιας εταιρείας, τόσο πιο πολύτιμο μπορεί να γίνει μετά το κλείσιμό της.
Αυτό όμως σημαίνει επίσης ότι η διακυβέρνηση δεδομένων πρέπει να ξεκινά πολύ πριν εμφανιστεί η ανάγκη πώλησης.
Για τους αγοραστές, το ζητούμενο δεν είναι απλώς να αποκτήσουν πολλά δεδομένα. Είναι να αποκτήσουν καθαρά, νόμιμα και χρήσιμα δεδομένα, χωρίς κρυφές ευαισθησίες που θα δημιουργήσουν πρόβλημα αργότερα.
Σε αυτό το σημείο, τα synthetic data μπορεί να λειτουργήσουν ως εναλλακτική ή ως ενδιάμεση λύση, ειδικά όταν το νομικό πλαίσιο είναι αβέβαιο.
Για τους πωλητές, η προετοιμασία πρέπει να είναι εξίσου σοβαρή. Δεν αρκεί η απλή διαγραφή ονομάτων από ένα αρχείο, γιατί τα μεταδεδομένα, τα χρονικά μοτίβα και οι επαναλαμβανόμενες αναφορές μπορούν να αποκαλύψουν περισσότερα από όσα φαίνονται με την πρώτη ματιά.
Η σωστή διαδικασία απαιτεί νομικό έλεγχο, τεχνική αποσύνδεση και τεκμηριωμένη απόφαση για το τι επιτρέπεται να διατεθεί.
Πρακτικά, κάθε επιχείρηση που σκέφτεται να πουλήσει τέτοιο υλικό θα πρέπει να ακολουθεί μια βασική λίστα ελέγχου.
Η λίστα αυτή μειώνει τον κίνδυνο και βοηθά να φανεί αν το δεδομένο σύνολο αξίζει πραγματικά το κόστος της επεξεργασίας του.
- Ελέγξτε αν υπάρχουν ρήτρες στις συμβάσεις εργασίας ή στις συμφωνίες εμπιστευτικότητας.
- Απομακρύνετε προσωπικά στοιχεία, εσωτερικά αναγνωριστικά και ευαίσθητα συμφραζόμενα.
- Καταγράψτε ποιος έχει πρόσβαση στα δεδομένα και ποιος εγκρίνει την πώληση.
- Ζητήστε νομική αξιολόγηση για το αν η διάθεση επιτρέπεται σε κάθε δικαιοδοσία.
- Συγκρίνετε την αξία του πραγματικού αρχείου με εναλλακτικές, όπως τα synthetic data.
Αν μια εταιρεία αγοράζει τέτοια σύνολα δεδομένων, πρέπει να απαιτεί πλήρες data provenance. Χωρίς καθαρό ιστορικό προέλευσης, το ρίσκο συμμόρφωσης και φήμης αυξάνεται σημαντικά.
Τι να ελέγξει ο αγοραστής
Πριν από οποιαδήποτε συμφωνία, ο αγοραστής πρέπει να βεβαιωθεί ότι το σύνολο δεδομένων έχει περάσει από πολύ αυστηρό καθαρισμό.
Αυτό σημαίνει έλεγχο για προσωπικά στοιχεία, ευαίσθητους όρους, εσωτερικούς κωδικούς και έμμεσες αναφορές που μπορούν να ταυτοποιήσουν άτομα ή πελάτες.
- Νομική προέλευση των δεδομένων και δικαίωμα πώλησης.
- Τεχνική ανωνυμοποίηση και ποιότητα του cleansing.
- Σαφής χρήση του συνόλου μόνο για τους συμφωνημένους σκοπούς.
- Δοκιμές διαρροής για να διαπιστωθεί αν το μοντέλο αναπαράγει ευαίσθητο υλικό.
Τι να διαφυλάξει ο πωλητής
Μια εταιρεία που βρίσκεται σε εκκαθάριση δεν πρέπει να βλέπει τα δεδομένα της απλώς ως εύκολο έσοδο. Οφείλει να εξετάσει πώς θα προστατεύσει την εμπιστοσύνη πρώην εργαζομένων, πελατών και συνεργατών, ιδιαίτερα όταν το περιεχόμενο αφορά εσωτερικές αποφάσεις ή τεχνικά μυστικά.
- Διαφάνεια προς τους εμπλεκόμενους για το τι πωλείται.
- Ελαχιστοποίηση δεδομένων πριν από οποιαδήποτε διάθεση.
- Συμβατικοί περιορισμοί για τη μελλοντική χρήση του υλικού.
- Εσωτερική τεκμηρίωση που να αποδεικνύει ότι η διαδικασία έγινε σωστά.
Τελικά, η υπόθεση αυτή δείχνει ότι τα εσωτερικά δεδομένα έχουν μετατραπεί σε μια νέα κατηγορία ψηφιακής αξίας.
Όμως όσο πιο πολύτιμα γίνονται, τόσο περισσότερο απαιτούν κανόνες, έλεγχο και υπευθυνότητα. Η αγορά μπορεί να είναι κερδοφόρα, αλλά χωρίς σαφές πλαίσιο μπορεί εύκολα να μετατραπεί σε πηγή νομικών και ηθικών προβλημάτων.
Για τον κλάδο της AI, η πραγματική πρόκληση δεν είναι μόνο η απόκτηση περισσότερων δεδομένων. Είναι η απόκτηση των σωστών δεδομένων, με τρόπο που να αντέχει σε έλεγχο, να σέβεται την ιδιωτικότητα και να παράγει μοντέλα που λειτουργούν αξιόπιστα στον πραγματικό κόσμο.
Εκεί ακριβώς θα κριθεί αν η νέα αυτή αγορά θα μείνει μια ευκαιρία με βραχύ ορίζοντα ή θα εξελιχθεί σε σταθερό κομμάτι της τεχνολογικής οικονομίας.
