- Τα benchmarks της τεχνητής νοημοσύνης μπορούν να χειραγωγηθούν εξαιρετικά εύκολα.
- Ερευνητές από το UC Berkeley απέδειξαν ότι τα μοντέλα AI μπορούν να επιτύχουν τέλεια σκορ χωρίς να εκτελέσουν καμία πραγματική εργασία.
- Η υπερβολική εξάρτηση από αυτά τα στατιστικά στοιχεία ενέχει σοβαρούς κινδύνους για τη λήψη επιχειρηματικών αποφάσεων.
Κορυφαίες βαθμολογίες χωρίς προσπάθεια: Πως χειραγωγούνται τα benchmarks της τεχνητής νοημοσύνης
Όταν κυκλοφορούν νέα μοντέλα τεχνητής νοημοσύνης από εταιρείες όπως η OpenAI, η Anthropic ή η Google, συνοδεύονται σχεδόν πάντα από εντυπωσιακά benchmark scores.
Αυτά τα σκορ προσφέρουν έναν γρήγορο τρόπο για τη σύγκριση των νέων μοντέλων με τους προκατόχους τους και τον ανταγωνισμό.
Η λογική είναι απλή: όσο υψηλότερο είναι το σκορ, τόσο καλύτερα αποτελέσματα θα πρέπει να παρέχει το μοντέλο.
Ωστόσο, όπως διαπίστωσαν ερευνητές στο Center for Responsible, Decentralized Intelligence του UC Berkeley, τα benchmarks αυτά δεν είναι τόσο αξιόπιστα όσο πολλοί πιστεύουν.
Τα benchmarks αποτελούν το standard για την αξιολόγηση της νοημοσύνης των μοντέλων, αλλά η ακεραιότητά τους αμφισβητείται πλέον έντονα από την επιστημονική κοινότητα.
Η ευκολία της χειραγώγησης
Για να ελέγξουν την αξιοπιστία τους, οι ερευνητές ανέπτυξαν έναν AI πράκτορα, ο οποίος είχε ως αποστολή να αναλύσει τα πιο γνωστά benchmarks και να εντοπίσει κενά ασφαλείας.
Το εργαλείο εξέτασε πλατφόρμες όπως το SWE-Bench, το Webarena, το OSWorld, το Gaia και άλλα.
Το αποτέλεσμα ήταν αποκαρδιωτικό: σχεδόν όλα παρουσιάζουν κενά ασφαλείας. Αυτές οι αδυναμίες επιτρέπουν στα μοντέλα να επιτυγχάνουν τέλεια σκορ, χωρίς στην πραγματικότητα να έχουν λύσει καμία από τις προβλεπόμενες εργασίες.
Τεχνικές παραπλάνησης στα benchmarks
Η χειραγώγηση αποδείχθηκε τρομακτικά απλή σε πολλές περιπτώσεις. Στο SWE-Bench, για παράδειγμα, η χειραγώγηση απαίτησε μόλις οκτώ γραμμές κώδικα Python.
Ο πράκτορας αντικατέστησε ένα αρχείο του τεστ και, με την εκκίνηση, το σύστημα κατέγραφε αυτόματα κάθε εργασία ως επιτυχημένη.
Ακόμα πιο εντυπωσιακό είναι το παράδειγμα του Webarena. Εδώ δεν χρειάστηκαν καν αλλαγές στον κώδικα του τεστ.
Οι ερευνητές εκμεταλλεύτηκαν ένα κενό στον browser όπου εκτελείται το τεστ, «δείχνοντάς» του έναν φάκελο με τις σωστές απαντήσεις. Το αποτέλεσμα; Ένα τέλειο σκορ 100%.
| Benchmark | Μέθοδος χειραγώγησης |
|---|---|
| SWE-Bench | Αντικατάσταση αρχείου με 8 γραμμές κώδικα |
| Webarena | Χρήση τοπικού αρχείου με τις σωστές απαντήσεις |
| Field Work Arena | Απουσία σωστής επαλήθευσης των απαντήσεων |
Το πρόβλημα με τα benchmark χωρίς ουσιαστική επαλήθευση
Άλλα τεστ, όπως το Field Work Arena, αντιμετωπίζουν θεμελιώδη προβλήματα σχεδιασμού.
Το τεστ απαιτεί από το μοντέλο AI να αναλύσει εικόνες και έγγραφα. Ωστόσο, το σύστημα δεν ελέγχει αν η απάντηση είναι σωστή. Ελέγχει μόνο αν το μοντέλο παρέχει κάποια απάντηση.
Εάν το μοντέλο απαντήσει κάτι, οτιδήποτε κι αν είναι αυτό, το τεστ το καταγράφει ως επιτυχία. Αυτό καθιστά το benchmark εντελώς άχρηστο για την αξιολόγηση της πραγματικής ευφυΐας ή ικανότητας του μοντέλου.
Η εμπιστοσύνη σε αυτά τα σκορ μπορεί να οδηγήσει σε λανθασμένες επενδύσεις σε τεχνολογίες που δεν αποδίδουν τα αναμενόμενα στην πράξη.
Γιατί τα benchmarks αποτελούν παγίδα
Οι ερευνητές τονίζουν ότι η κατάσταση είναι ανησυχητική. Πολλοί άνθρωποι και επιχειρήσεις χρησιμοποιούν αυτά τα στατιστικά αποτελέσματα για να αποφασίσουν ποιο μοντέλο AI θα ενσωματώσουν στη ροή εργασίας τους.
Όταν οι αποφάσεις για δαπάνες, διαχείριση δεδομένων και ιδιωτικότητα βασίζονται σε παραπλανητικά στοιχεία, οι συνέπειες μπορεί να είναι σημαντικές. Δεν πρόκειται μόνο για οικονομική ζημιά, αλλά και για θέματα ασφάλειας και αξιοπιστίας των συστημάτων που χρησιμοποιούμε.
Είναι σημαντικό να κατανοήσουμε τον νόμο του Goodhart: «Όταν ένα μέτρο γίνεται στόχος, παύει να είναι καλό μέτρο». Οι προγραμματιστές AI, στην προσπάθειά τους να αναρριχηθούν στα charts, ενδέχεται να βελτιστοποιούν τα μοντέλα τους ειδικά για τα benchmarks, αντί να τα καθιστούν πιο ικανά στην πραγματική επίλυση προβλημάτων.
Η ανάγκη για ρεαλιστική αξιολόγηση
Πώς μπορούμε λοιπόν να γνωρίζουμε την πραγματική αξία ενός μοντέλου; Η απάντηση δεν βρίσκεται σε αυτοματοποιημένα τεστ που μπορούν να «διαβαστούν» από το AI. Οι εταιρείες πρέπει να υιοθετήσουν μια πιο ολιστική προσέγγιση.
Αυτό περιλαμβάνει τη χρήση ιδιόκτητων δεδομένων για δοκιμές (private datasets), τα οποία δεν είναι δημόσια διαθέσιμα και επομένως δεν μπορούν να αποτελέσουν μέρος του «training set» του μοντέλου.
Επιπλέον, η ανθρώπινη αξιολόγηση παραμένει ο χρυσός κανόνας. Οι ειδικοί πρέπει να δοκιμάζουν τα μοντέλα σε σενάρια πραγματικής χρήσης, όπου η λογική, η ενσυναίσθηση και η σύνθετη σκέψη είναι απαραίτητες.
Τα benchmarks θα πρέπει να αντιμετωπίζονται μόνο ως μια ένδειξη και όχι ως απόλυτη απόδειξη ικανότητας.
Αν αξιολογείτε ένα μοντέλο για την επιχείρησή σας, διεξάγετε δικές σας δοκιμές με πραγματικά, σύνθετα προβλήματα του κλάδου σας.
Το μέλλον των αξιολογήσεων AI
Καθώς τα μοντέλα γίνονται πιο έξυπνα, η πιθανότητα να αναγνωρίζουν μόνα τους τα κενά στα benchmarks αυξάνεται.
Μελλοντικά, ίσως δούμε συστήματα αξιολόγησης που αλλάζουν δυναμικά, καθιστώντας αδύνατο για το AI να «μαντέψει» το επόμενο τεστ.
Μέχρι τότε, η κριτική σκέψη και η καχυποψία απέναντι στα εντυπωσιακά νούμερα είναι οι καλύτεροι σύμμαχοί μας.
Οι ερευνητές δεν υποστηρίζουν απαραίτητα ότι οι τρέχοντες πρωτοπόροι στα benchmarks έχουν σκόπιμα “κλέψει”. Ωστόσο, αναδεικνύουν μια θεμελιώδη αδυναμία στο οικοσύστημα. Η διαφάνεια στην αξιολόγηση είναι επιβεβλημένη, προκειμένου να χτιστεί πραγματική εμπιστοσύνη στον κλάδο της τεχνητής νοημοσύνης.
Οι χρήστες πρέπει να απαιτούν πιο αυστηρά πρωτόκολλα δοκιμών και να μην αρκούνται στα εύκολα, εντυπωσιακά ποσοστά που παρουσιάζονται στα δελτία τύπου.
