- Ερευνητές έδειξαν ότι οπτικές “εντολές” σε πινακίδες μπορούν να παραπλανήσουν συστήματα αυτόνομης οδήγησης και drones.
- Η μέθοδος CHAI πέτυχε υψηλά ποσοστά εξαπάτησης σε προσομοιώσεις (έως 95,5%) και λειτούργησε και σε πραγματικό ρομπο-όχημα.
- Τα ευρήματα αναδεικνύουν την ανάγκη για άμυνες κατά της οπτικής prompt injection πριν κυκλοφορήσουν μαζικά περισσότερα “embodied AI” συστήματα.
Drones, αυτοκίνητα που οδηγούν μόνα τους και ανθρωποειδή ρομπότ «διαβάζουν» το περιβάλλον μέσω οπτικών πληροφοριών. Όμως, τι γίνεται αν κάποιος τους «περάσει» επιβλαβείς εντολές;
Κάμερες που αναγνωρίζουν αυτόματα σήματα κυκλοφορίας και, για παράδειγμα, εμφανίζουν το επιτρεπόμενο όριο ταχύτητας, ανήκουν πλέον στον βασικό εξοπλισμό πολλών νέων αυτοκινήτων.
Ακόμη περισσότερες πληροφορίες από το περιβάλλον συλλέγουν τα αυτόνομα οχήματα, όπως τα Robotaxis της Waymo: άλλα αυτοκίνητα, σήματα, φανάρια, πεζές και πεζοί — όλα αυτά πρέπει να αναγνωρίζονται αξιόπιστα. Ένα λογισμικό τεχνητής νοημοσύνης επεξεργάζεται τις πληροφορίες σε πραγματικό χρόνο.
Ωστόσο, αυτά τα συστήματα ενδέχεται να μην είναι επαρκώς θωρακισμένα απέναντι σε επιθέσεις «απ’ έξω», όπως υποδηλώνει νέα μελέτη του Πανεπιστημίου της Καλιφόρνια, Σάντα Κρουζ.
Η εργασία έχει δημοσιευθεί ως preprint και δεν έχει ακόμη ελεγχθεί από ανεξάρτητες/ους ειδικούς (peer review).
Preprint σημαίνει ότι τα αποτελέσματα είναι προκαταρκτικά και μπορεί να αλλάξουν μετά από επιστημονικό έλεγχο (peer review).
Τρεις περιπτώσεις για να ξεγελαστεί η τεχνητή νοημοσύνη
Οι ερευνητές γύρω από τον καθηγητή πληροφορικής Alvaro Cardenas ήθελαν να δοκιμάσουν αν τα λεγόμενα Embodied AI Systems — δηλαδή «ενσώματη» τεχνητή νοημοσύνη, όπως αυτή που υπάρχει σε αυτοκίνητα, drones ή ανθρωποειδή ρομπότ — μπορούν να ξεγελαστούν μέσω στοχευμένων οδηγιών.
Δύο παραδείγματα: ένα αυτόνομο αυτοκίνητο «βλέπει» σε πινακίδα στο πλάι του δρόμου την εντολή «στρίψε αριστερά» ή ένα drone αναγνωρίζει μέσω κάμερας στο έδαφος μια πινακίδα που γράφει «προσγειώσου εδώ».
Πως αντιδρούν τα υποκείμενα γλωσσικά μοντέλα σε αυτή τη μορφή visual prompt injection;
Για να το απαντήσουν, η ομάδα δοκίμασε τρία σενάρια:
- Σε ένα σενάριο, στόχος ήταν να πειστεί ένα drone να προσγειωθεί σε μη ασφαλή ταράτσα.
- Στο δεύτερο, ένα αυτόνομο αυτοκίνητο να περάσει πάνω από διάβαση πεζών, παρότι υπήρχαν πεζοί κοντά.
- Στο τρίτο, μια «αστυνομική» drone να καθοδηγηθεί ώστε να παρακολουθήσει διαφορετικό στόχο από αυτόν που είχε αρχικά οριστεί.
Γιατί τα Large Vision-Language Models είναι ευάλωτα σε εξωτερικές εντολές
Και στις τρεις περιπτώσεις, χρησιμοποιούνται Large Vision-Language Models (LVLM), τα οποία — σε σύγκριση με τα καθαρά Large Language Models (LLM) — ενσωματώνουν πιο έντονα οπτικές και κειμενικές πληροφορίες. «Υποθέτω ότι τα Vision-Language μοντέλα θα παίξουν σημαντικό ρόλο σε μελλοντικά embodied AI συστήματα», λέει ο Cardenas. «Γι’ αυτό η πτυχή της ασφάλειας είναι τόσο σημαντική».
Η οπτική prompt injection δεν απαιτεί απαραίτητα hacking λογισμικού. Μπορεί να γίνει με “αθώα” φυσικά αντικείμενα, όπως μια πινακίδα.
CHAI: “Κατάληψη εντολών” (Command Hijacking) σε embodied AI
Οι ερευνητές ονόμασαν το σύστημά τους CHAI — Command Hijacking against embodied AI.
Σε ένα πρώτο βήμα, το CHAI χρησιμοποιεί το ίδιο ένα γλωσσικό μοντέλο, ώστε να δημιουργεί τις πιο «υποσχόμενες» εντολές.
Αυτό περιλαμβάνει όχι μόνο το κείμενο, αλλά και μέγεθος, χρώμα, γραμματοσειρά και τοποθέτηση, ώστε οι εντολές να αναγνωρίζονται από το σύστημα.
Για τον σκοπό αυτό, η ομάδα έβαλε το CHAI σε «διάλογο» με τα αντίστοιχα γλωσσικά μοντέλα, ώστε να βρει ποιες εντολές αγνοούνται και σε ποιες μπορεί να υπάρχει ευαλωτότητα.
Με αυτό το «λεξικό εντολών», το CHAI δοκιμάστηκε πάνω στα γλωσσικά μοντέλα μέσα σε έναν προσομοιωτή υψηλής ανάλυσης.
Αποτελέσματα: υψηλά ποσοστά επιτυχίας στην εξαπάτηση
Κατά την παρακολούθηση ιπτάμενων αντικειμένων, το CHAI πέτυχε ποσοστό επιτυχίας έως 95,5%. Στα οχήματα χωρίς οδηγό, έφτασε το 81,8%.
Αντίθετα, το να οδηγήσει drones σε διαφορετικό σημείο προσγείωσης ήταν επιτυχές στο 68,1% των προσπαθειών.
Ακόμη και σε μεταγενέστερα transfer tests με άγνωστα σενάρια, το CHAI κατάφερε σε πάνω από τις μισές προσπάθειες να ξεγελάσει τα γλωσσικά μοντέλα.
Πίνακας: Ποσοστά επιτυχίας του CHAI ανά σενάριο
| Σενάριο | Στόχος επίθεσης | Ποσοστό επιτυχίας |
|---|---|---|
| Παρακολούθηση ιπτάμενων αντικειμένων | Αλλαγή στόχου παρακολούθησης drone | έως 95,5% |
| Αυτόνομα οχήματα | Εκτροπή συμπεριφοράς οχήματος σε προσομοίωση | 81,8% |
| Προσγείωση drone | Μεταφορά σε άλλο σημείο προσγείωσης | 68,1% |
Ρομπο-αυτοκίνητο μπορεί να ξεγελαστεί με πινακίδες
Σε μια τελική δοκιμή, οι ερευνητές δοκίμασαν το σύστημα και σε ένα ρομπο-αυτοκίνητο που κινούνταν στους διαδρόμους του ινστιτούτου. Του έδειξαν τόσο εντολές σε πινακίδες στο «πεζοδρόμιο» όσο και εντολές που ήταν κολλημένες πάνω σε ένα δεύτερο ρομπότ που περνούσε δίπλα του. Και σε αυτές τις περιπτώσεις, τα συστήματα μπορούσαν να εξαπατηθούν.
Οι δοκιμές επιβεβαίωσαν επίσης ότι οι επιθέσεις τους λειτουργούσαν υπό διαφορετικές συνθήκες φωτισμού.
Τι δείχνουν τα ευρήματα για την ασφάλεια της embodied AI
Τα αποτελέσματα δείχνουν ότι αυτή η μορφή οπτικής prompt injection μπορεί να αποτελεί μεγαλύτερο πρόβλημα ασφάλειας από όσο πιστευόταν μέχρι σήμερα.
Ειδικά αν αναλογιστεί κανείς ότι τα επόμενα χρόνια θα κυκλοφορήσουν στην αγορά περισσότερα embodied AI συστήματα — από αυτόνομα αυτοκίνητα έως ανθρωποειδή ρομπότ.
«Κάθε νέα τεχνολογία φέρνει νέες αδυναμίες», δήλωσε ο Cardenas. Γι’ αυτό είναι σημαντικό να αναπτυχθούν μέτρα άμυνας πριν αυτές οι αδυναμίες αξιοποιηθούν.
Σε προσομοίωση, το CHAI έφτασε έως 95,5% επιτυχία σε σενάριο παρακολούθησης και 81,8% σε σενάρια αυτόνομων οχημάτων.
Η ομάδα από το Σάντα Κρουζ δεν είναι η πρώτη που ασχολείται με αυτού του είδους τις αδυναμίες.
Ήδη από το 2024, ερευνητές του University of Pennsylvania κατάφεραν, μέσω prompt injection σε προσομοίωση, να κάνουν ένα αυτόνομο αυτοκίνητο να παρεκκλίνει από τη διαδρομή του και να αγνοήσει εμπόδια.
Η πολιτική εμπιστοσύνης από τη μεριά των εταιρειών
Αν και οι επιδείξεις έγιναν σε προσομοίωση και σε ελεγχόμενα περιβάλλοντα, το κεντρικό μήνυμα για κατασκευαστές και φορείς πιστοποίησης είναι σαφές: όταν ένα σύστημα παίρνει αποφάσεις από «ό,τι βλέπει», χρειάζεται πολιτική εμπιστοσύνης για τις οπτικές εντολές, αντί να τις αντιμετωπίζει ως ισότιμες με σήματα κυκλοφορίας ή οδηγίες χειριστή.
Που οφείλεται ο κίνδυνος στην πράξη
Τα LVLM είναι ικανά να συνδυάζουν κείμενο και εικόνα σε μία «ενιαία» κατανόηση σκηνής.
Αυτό είναι πλεονέκτημα για πλοήγηση και αλληλεπίδραση, αλλά δημιουργεί και ένα νέο κανάλι επίθεσης: ένας αντίπαλος δεν χρειάζεται πρόσβαση στο δίκτυο του οχήματος, αρκεί να τοποθετήσει ένα οπτικό ερέθισμα (π.χ. πινακίδα, αυτοκόλλητο, φορητή οθόνη) που το μοντέλο θα εκλάβει ως έγκυρη οδηγία.
Checklist άμυνας για ομάδες ασφαλείας (fleet operators & κατασκευαστές)
- Κανόνες προτεραιότητας: οι εντολές φυσικής γλώσσας από το περιβάλλον να μην υπερισχύουν ποτέ των κανόνων οδικής ασφάλειας (π.χ. διάβαση πεζών, κόκκινο φανάρι).
- Φίλτρα “εντολών”: ανίχνευση και απόρριψη κειμένων που μοιάζουν με προστακτικές/οδηγίες (“στρίψε”, “αγνόησε”, “προχώρα”).
- Cross-check αισθητήρων: επιβεβαίωση με LiDAR/radar/HD maps ότι μια «εντολή» συμφωνεί με τη γεωμετρία του δρόμου και τη σηματοδότηση.
- Αβεβαιότητα & safe mode: όταν το μοντέλο “διαβάζει” οδηγία με χαμηλή βεβαιότητα, να επιβραδύνει, να ζητά ανθρώπινη παρέμβαση ή να σταματά με ασφάλεια.
- Red-teaming σε φυσικό κόσμο: δοκιμές με διαφορετικό φωτισμό, γωνίες, αντανακλάσεις, βροχή/σκόνη και κακόβουλες πινακίδες σε ποικιλία υλικών.
Πίνακας: Μέτρα μετριασμού και τι προστατεύουν
| Μέτρο | Τι μειώνει | Πρακτική εφαρμογή |
|---|---|---|
| Policy gating (κανόνες ασφαλείας πάνω από το LVLM) | Αυθαίρετες/επικίνδυνες ενέργειες από “εντολές” | Ποτέ παραβίαση ΚΟΚ, πάντα ελάχιστη ρίσκο-ενέργεια |
| Sensor fusion & επιβεβαίωση με χάρτες | Εξάρτηση από μία μόνο κάμερα/εικόνα | Αν το κείμενο λέει “στρίψε”, ο χάρτης/λωρίδες πρέπει να το επιτρέπουν |
| Adversarial training με φυσικές πινακίδες | Ευαισθησία σε prompt-like οπτικά μοτίβα | Dataset με κακόβουλες/παραπλανητικές πινακίδες, αυτοκόλλητα, οθόνες |
Τέλος, σε επίπεδο κανονιστικής συμμόρφωσης, έχει αξία να καθιερωθούν δοκιμές τύπου “οπτικού penetration test” πριν από την εμπορική ανάπτυξη στόλων robotaxi: όχι μόνο για το αν «βλέπουν» σωστά τα σήματα, αλλά για το αν μπορούν να αγνοήσουν πειστικές, κακόβουλες οδηγίες.
Όσο τα αυτόνομα συστήματα πλησιάζουν την καθημερινή χρήση, η ασφάλεια δεν είναι απλώς ζήτημα ατυχημάτων — είναι και ζήτημα ανθεκτικότητας απέναντι σε χειραγώγηση σε δημόσιους χώρους.
