Ένα ανοιχτού κώδικα ερευνητικό έργο αποδεικνύει ότι τα agent frameworks ενισχύουν τις δυνατότητες των AI μοντέλων.
Οι ερευνητές της Hugging Face ανακοίνωσαν την κυκλοφορία ενός ανοιχτού κώδικα ερευνητικού πράκτορα AI με την ονομασία Open Deep Research. Το εγχείρημα δημιουργήθηκε από την εσωτερική ομάδα της Hugging Face ως πρόκληση, μόλις 24 ώρες μετά την παρουσίαση της λειτουργίας Deep Research από την OpenAI. Ο στόχος του είναι να επιτύχει παρόμοιες επιδόσεις με το Deep Research, καθιστώντας παράλληλα την τεχνολογία διαθέσιμη σε όλους τους προγραμματιστές.
“Παρόλο που ισχυρά LLMs είναι πλέον διαθέσιμα ως ανοιχτού κώδικα, η OpenAI δεν αποκάλυψε πολλά για το agentic framework που χρησιμοποιεί το Deep Research”, αναφέρει η Hugging Face στην ανακοίνωσή της. “Έτσι, αποφασίσαμε να αναπαράγουμε τα αποτελέσματά τους μέσα σε 24 ώρες και να ανοίξουμε τον κώδικα του απαραίτητου framework στη διαδικασία!”
Πως λειτουργεί το Open Deep Research
Όπως το Deep Research της OpenAI και η αντίστοιχη προσέγγιση της Google μέσω του Gemini, το Open Deep Research της Hugging Face χρησιμοποιεί ένα agent framework για να επιτρέπει σε ένα AI μοντέλο να εκτελεί πολύπλοκες εργασίες πολλών βημάτων. Αυτό περιλαμβάνει τη συλλογή πληροφοριών και τη δημιουργία μιας ερευνητικής αναφοράς, την οποία παρουσιάζει στον χρήστη.
Το ανοιχτού κώδικα σύστημα έχει ήδη επιτύχει εντυπωσιακά αποτελέσματα. Μέσα σε μία μόνο ημέρα, το Open Deep Research έφτασε το 55,15% ακρίβεια στο General AI Assistants (GAIA) benchmark, το οποίο αξιολογεί την ικανότητα ενός AI να συγκεντρώνει και να συνθέτει πληροφορίες από πολλαπλές πηγές. Συγκριτικά, το Deep Research της OpenAI πέτυχε 67,36% ακρίβεια με μία μόνο απόκριση, ενώ με συνδυασμό 64 αποκρίσεων μέσω μηχανισμού συναίνεσης η βαθμολογία του αυξήθηκε σε 72,57%.
Η πρόκληση της σύνθετης αναζήτησης
Το GAIA benchmark περιλαμβάνει σύνθετες ερωτήσεις, όπως η εξής:
“Ποια φρούτα από τον πίνακα “Embroidery from Uzbekistan” (2008) σερβίρονταν στο πρωινό του Οκτωβρίου 1949 στο υπερωκεάνιο που αργότερα χρησιμοποιήθηκε ως πλωτό σκηνικό στην ταινία “The Last Voyage”; Παραθέστε τα φρούτα ως λίστα, ταξινομημένα δεξιόστροφα από τη θέση 12 η ώρα του πίνακα.”
Για να απαντήσει σωστά, ο AI πράκτορας πρέπει να εντοπίσει διαφορετικές πηγές, να τις συνδυάσει και να παράγει μια λογική, συνεκτική απάντηση. Αυτού του είδους οι ερωτήσεις δοκιμάζουν στο έπακρο τις ικανότητες των πρακτόρων AI.
Επιλογή του σωστού AI μοντέλου
Το Open Deep Research βασίζεται σε μεγάλα γλωσσικά μοντέλα (LLMs) όπως το GPT-4o ή μοντέλα προσομοιωμένης συλλογιστικής όπως το o1 και το o3-mini, μέσω API. Ωστόσο, μπορεί να προσαρμοστεί και σε AI μοντέλα ανοιχτών βαρών. Το σημαντικό στοιχείο εδώ είναι η agentic δομή, η οποία επιτρέπει σε ένα AI να ολοκληρώνει μια ερευνητική εργασία αυτόνομα.
Σύμφωνα με τον Aymeric Roucher, επικεφαλής του Open Deep Research, η ομάδα χρησιμοποίησε τη βιβλιοθήκη smolagents της Hugging Face, η οποία βασίζεται σε code agents αντί για JSON-based agents. Αυτοί οι agents γράφουν τις ενέργειές τους απευθείας σε κώδικα προγραμματισμού, γεγονός που αυξάνει την αποδοτικότητα κατά 30%.
Ο ρόλος του open source στην ταχεία ανάπτυξη
Όπως συμβαίνει με πολλές εφαρμογές ανοιχτού κώδικα, η ταχύτητα ανάπτυξης του Open Deep Research ήταν εντυπωσιακή. Η ομάδα της Hugging Face βασίστηκε στην έρευνα άλλων και χρησιμοποίησε εργαλεία περιήγησης στο web και επιθεώρησης κειμένου από το έργο Magnetic-One της Microsoft Research.
Παρόλο που το open source ερευνητικό εργαλείο δεν έχει ακόμη φτάσει την απόδοση του Deep Research της OpenAI, παρέχει στους προγραμματιστές ελεύθερη πρόσβαση στην τεχνολογία, δίνοντάς τους τη δυνατότητα να τη μελετήσουν και να τη βελτιώσουν.
Μελλοντικές βελτιώσεις
Ο Roucher επισημαίνει ότι το Open Deep Research μπορεί να βελτιωθεί περαιτέρω μέσω υποστήριξης περισσότερων μορφών αρχείων και δυνατοτήτων περιήγησης με οπτική ανάλυση (vision-based web browsing). Παράλληλα, η Hugging Face εργάζεται ήδη πάνω στην αναπαραγωγή του Operator της OpenAI, ενός AI πράκτορα ικανού να εκτελεί εργασίες εντός ενός περιβάλλοντος web browser, όπως η χρήση του ποντικιού και του πληκτρολογίου.
Ο πηγαίος κώδικας του έργου έχει ήδη δημοσιευτεί στο GitHub, ενώ η Hugging Face αναζητά μηχανικούς για να επεκτείνουν τις δυνατότητές του.
“Η ανταπόκριση της κοινότητας ήταν εξαιρετική”, αναφέρει ο Roucher. “Έχουμε πολλούς νέους contributors που προτείνουν βελτιώσεις. Νιώθουμε σαν να “σερφάρουμε το κύμα” της ανοιχτής καινοτομίας!”