Η Anthropic βρίσκεται μπροστά σε ένα παράδοξο. Η εταιρεία που αναπτύσσει το μοντέλο Claude δυσκολεύεται πλέον να αξιολογήσει και να επιλέξει τους μηχανικούς που θέλει να προσλάβει, ακριβώς επειδή οι δυνατότητες του κορυφαίου προϊόντος της έχουν ανέβει τόσο πολύ.
Αυτό που μέχρι πρόσφατα ήταν ένα αποτελεσματικό φίλτρο για τους καλύτερους υποψηφίους, σήμερα απειλεί να γίνει ένα τεστ που “λύνει” η ίδια η τεχνητή νοημοσύνη—και μάλιστα καλύτερα από τους ανθρώπους.
Το τεστ επιλογής της Anthropic: πρακτικό, χρονικά περιορισμένο και «take-home»
Από το 2024, η ομάδα performance engineering χρησιμοποιεί ένα πρακτικό τεστ για να αξιολογεί υποψηφίους. Πρόκειται για μια άσκηση που εκτελείται στο σπίτι (χωρίς άμεση επιτήρηση) και ζητά από τον υποψήφιο να:
- βελτιστοποιήσει κώδικα
- για έναν προσομοιωμένο επιταχυντή hardware AI
- μέσα σε περιορισμένο χρόνο
Η λογική ήταν απλή: οι υποψήφιοι που πραγματικά καταλαβαίνουν βελτιστοποίηση απόδοσης, low-level σκέψη και συστημική ανάλυση, θα ξεχωρίσουν.
Πάνω από 1.000 συμμετοχές και δεκάδες προσλήψεις (όταν το σύστημα δούλευε)
Περισσότερα από χίλια άτομα ολοκλήρωσαν το τεστ. Με αυτό τον τρόπο, η Anthropic κατάφερε να προσλάβει δεκάδες μηχανικούς εξειδικευμένους στη βελτιστοποίηση επιδόσεων.
Οι επαγγελματίες αυτοί:
- διαχειρίστηκαν το cluster των AI chips AWS Trainium της εταιρείας
- συνέβαλαν στην κυκλοφορία κάθε νέου μοντέλου μετά το Claude 3 Opus
Με άλλα λόγια, το τεστ δεν ήταν “τυπικό HR φίλτρο”: είχε πρακτική αξία και οδηγούσε σε προσλήψεις ανθρώπων που έκαναν ουσιαστική διαφορά στο προϊόν.
Όταν το Claude έγινε «πολύ καλό», το τεστ έχασε τη δύναμη του
Το σύστημα λειτούργησε καλά μέχρι την έλευση των ισχυρότερων εκδόσεων του Claude.
- Πρώτα, το Claude Opus 4 ξεπέρασε τους περισσότερους ανθρώπινους υποψηφίους μέσα στο ίδιο χρονικό όριο.
- Έπειτα, το Claude Opus 4.5 έφτασε να ισοφαρίζει ακόμη και τις επιδόσεις των καλύτερων υποψηφίων.
Μέσα στους χρονικούς περιορισμούς του τεστ, η διάκριση ανάμεσα σε:
- έργο ενός εξαιρετικού υποψηφίου και
- λύση που παράχθηκε από AI
έγινε πρακτικά αδύνατη. Και έτσι προκύπτει το βασικό πρόβλημα: δεν υπάρχει βεβαιότητα ότι οι υποψήφιοι δεν χρησιμοποιούν το Claude στο σπίτι για να περάσουν την αξιολόγηση.
Ο δημιουργός του τεστ το ανασχεδίασε 3 φορές
Ο Tristan Hume, επικεφαλής της ομάδας και δημιουργός του τεστ, χρειάστηκε να το επανασχεδιάσει τρεις φορές:
1) Πρώτη αλλαγή: πιο δύσκολο τεστ, «εκεί που δυσκολευόταν το Claude»
Η αρχική λύση ήταν να γίνει το τεστ πιο σύνθετο, ξεκινώντας από το σημείο όπου το Claude Opus 4 έδειχνε αδυναμίες. Αυτό λειτούργησε για μερικούς μήνες—μέχρι να εμφανιστεί το Claude Opus 4.5.
2) Δεύτερη αλλαγή: πραγματικά προβλήματα βελτιστοποίησης δεδομένων
Η δεύτερη προσπάθεια βασίστηκε σε πιο ρεαλιστικά ζητήματα βελτιστοποίησης. Απέτυχε, όταν το μοντέλο βρήκε δημιουργικές λύσεις που ούτε ο σχεδιαστής του τεστ δεν είχε προβλέψει.
3) Τρίτη αλλαγή (η σημερινή): «παράξενα» puzzles τύπου Zachtronics
Η τρέχουσα εκδοχή ακολουθεί μια ριζικά διαφορετική προσέγγιση και, παραδόξως, είναι και λιγότερο χρήσιμη για τον πραγματικό σκοπό της επιλογής που θέλει η Anthropic.
Αντί να προσομοιώνει ρεαλιστικά προβλήματα όπως αυτά της καθημερινής δουλειάς, προτείνει σκόπιμα ασυνήθιστα programming puzzles, εμπνευσμένα από τα videogames Zachtronics (γνωστά ως «μηχανικά/μηχανιστικά εγκεφαλικά»).
Αυτά τα παιχνίδια χρησιμοποιούν εξαιρετικά περιορισμένες και μη συμβατικές “γλώσσες” προγραμματισμού, δημιουργώντας προκλήσεις τόσο εκτός των συνηθισμένων μοτίβων (out-of-distribution), ώστε να δυσκολεύεται το Claude.
Ένα άβολο συμπέρασμα: το «ρεαλιστικό» τεστ δεν δουλεύει πια, δουλεύει το «αλλόκοτο»
Η Anthropic βρίσκεται έτσι σε μια περίεργη κατάσταση:
- το αρχικό τεστ λειτουργούσε επειδή αντικατόπτριζε πιστά την πραγματική δουλειά
- το νέο τεστ λειτουργεί επειδή δεν μοιάζει με την πραγματική δουλειά και βάζει τους υποψηφίους σε εντελώς νέες, ανορθόδοξες συνθήκες
Πρόκειται για μια αναγκαία αλλά άβολη αλλαγή, που με έναν τρόπο προαναγγέλλει και τη δήλωση του CEO της εταιρείας στο World Economic Forum:
«Ίσως απέχουμε 6–12 μήνες από τη στιγμή που το μοντέλο θα κάνει το μεγαλύτερο μέρος, ίσως και ό,τι κάνουν οι software engineers end-to-end».
Τι σημαίνει αυτό για το μέλλον των προσλήψεων στην εποχή της AI
Το περιστατικό της Anthropic δεν είναι απλώς ένα «αστείο» τεχνολογικό παράδοξο· είναι προειδοποίηση ότι ο κλασικός τρόπος αξιολόγησης υποψηφίων στην πληροφορική αλλάζει ριζικά.
Τα take‑home tests είχαν δύο βασικά πλεονεκτήματα: έδιναν χρόνο στον υποψήφιο να σκεφτεί και προσέφεραν πιο «ρεαλιστική» εικόνα από ένα συνέντευξη-κουίζ. Όμως, στην εποχή των ισχυρών LLMs, το take‑home γίνεται εύκολα τεστ χρήσης εργαλείων και όχι τεστ ικανότητας.
Πιθανότατα θα δούμε τρεις μετατοπίσεις στις προσλήψεις:
- Αξιολόγηση με επίβλεψη ή με ίχνη εργασίας (work traces). Όχι απαραίτητα «εξετάσεις», αλλά διαδικασίες όπου ο υποψήφιος εξηγεί επιλογές, κάνει trade‑offs και τεκμηριώνει αποφάσεις. Το AI μπορεί να γράψει κώδικα, αλλά δυσκολεύεται περισσότερο να αποδείξει ότι ο άνθρωπος κατανόησε πραγματικά τις συνέπειες (latency, κόστος, παραλληλισμός, bottlenecks).
- Έμφαση σε δεξιότητες που δεν “αντιγράφονται” εύκολα. Για παράδειγμα: debugging σε άγνωστο σύστημα, ανάγνωση/βελτίωση legacy code, σχεδιασμός με περιορισμούς ασφάλειας και αξιοπιστίας, και κυρίως ικανότητα συνεργασίας (code review, τεχνική επιχειρηματολογία, διαχείριση αβεβαιότητας). Αυτά δεν λύνονται με ένα prompt.
- Κανονικοποίηση της χρήσης AI—αλλά με κανόνες. Πολλές εταιρείες θα καταλήξουν να λένε: «χρησιμοποίησε AI, αλλά δείξε μας πώς το ελέγχεις». Αυτό μετατρέπει την αξιολόγηση από “γράψε κώδικα” σε “χρησιμοποίησε εργαλεία υπεύθυνα”: επαλήθευση, τεστ, benchmarks, ανάλυση ρίσκου, και αποφυγή hallucinations/λανθασμένων βελτιστοποιήσεων.
Τέλος, υπάρχει και μια πρακτική συνέπεια: όσο τα μοντέλα βελτιώνονται, τόσο η επιλογή ανθρώπων θα βασίζεται λιγότερο σε «μία τέλεια λύση» και περισσότερο σε τρόπο σκέψης, διαφάνεια διαδικασίας και ικανότητα να παράγεις αξιόπιστα αποτελέσματα σε παραγωγή.
Η “δημιουργικότητα” που αναφέρεται στο άρθρο δεν είναι καλλιτεχνία—είναι η ικανότητα να βρίσκεις νέους τρόπους να μετράς, να ελέγχεις και να εμπιστεύεσαι την ανθρώπινη συνεισφορά μέσα σε ένα περιβάλλον όπου η AI μπορεί να γράφει το ίδιο (ή καλύτερο) code.
Διάβασε επίσης: Ρομποτική: Η Αμερική εφευρίσκει, η Κίνα παράγει: πως το Πεκίνο κερδίζει τη μάχη
