ΑρχικήΕιδήσειςΠολλά Μεγάλα Γλωσσικά Μοντέλα δεν μπορούν να λύσουν απλά λογικά προβλήματα

Πολλά Μεγάλα Γλωσσικά Μοντέλα δεν μπορούν να λύσουν απλά λογικά προβλήματα

Πολλά Μεγάλα Γλωσσικά Μοντέλα (LLM) παρουσιάζονται ως εξαιρετικά εύχρηστα και ακριβή, επιτυγχάνοντας καλά αποτελέσματα σε τυποποιημένα σημεία αναφοράς. Λογικές εργασίες που μπορούν να επιλυθούν εύκολα από ανθρώπους, δεν θα έπρεπε να αποτελούν πρόβλημα για αυτά τα γλωσσικά μοντέλα, πολλά από τα οποία είναι εξαιρετικά ισχυρά.

Ωστόσο, μια διεθνής ερευνητική ομάδα αποφάσισε να διερευνήσει και να αξιολογήσει πολλά σύγχρονα LLM, όπως τα Llama 2, Gemini Pro, GPT-4, και Claude 3-O.

Το Πρόβλημα της Αλίκης στη Χώρα των Θαυμάτων

Το πρόβλημα που τέθηκε σε όλα τα μοντέλα ήταν το εξής: “Η Αλίκη έχει Ν αδέρφια και επίσης Μ αδερφές. Πόσες αδερφές έχει ο αδερφός της Αλίκη;” Για τους περισσότερους ενήλικες – και ακόμη και για κάποια παιδιά – η λύση σε αυτό το πρόβλημα είναι προφανής: αν υποθέσουμε ότι όλα τα αδέρφια έχουν τους ίδιους γονείς, τότε ο αδερφός της Αλίκης έχει Μ+1 αδερφές, καθώς η Αλίκη είναι επίσης αδερφή. Η ερευνητική ομάδα ονόμασε αυτό το πρόβλημα “πρόβλημα της Αλίκης στη χώρα των θαυμάτων” (AIW).

Απογοητευτικά αποτελέσματα σε απλά λογικά προβλήματα

Τα αποτελέσματα των LLM ήταν απογοητευτικά: Πολλά μοντέλα παρουσίασαν προβλήματα με την επίλυση της εργασίας και δεν κατάφεραν να δώσουν αξιόπιστες λύσεις. Τα μεγάλα μοντέλα με πολλά διακριτικά και παραμέτρους απέδωσαν καλύτερα, όπως τα GPT-4, GPT-4o και Claude 3. Αντίθετα, τα περισσότερα άλλα μοντέλα, συμπεριλαμβανομένου του Metas Llama2/3, απέτυχαν σχεδόν σε κάθε προσπάθεια.

Παρόλο που τα μοντέλα επιδεικνύουν καλές επιδόσεις στα benchmarks, τα αποτελέσματά τους στη δοκιμή AIW ήταν μέτρια. Οι ερευνητές χρησιμοποίησαν τρεις διαφορετικούς τύπους προτροπών για τη δοκιμή: την τυπική προτροπή, που ζητά την επίλυση και παροχή της λύσης σε κείμενο, την προτροπή σκέψης, που ζητά από τα μοντέλα να επανεξετάσουν και να διορθώσουν τους υπολογισμούς τους, και την περιορισμένη μορφή, που απλώς παράγει το αποτέλεσμα χωρίς επεξήγηση.

Κάθε μοντέλο δοκιμάστηκε 30 φορές για κάθε τύπο προτροπής. Το GPT-4o αποδείχθηκε το καλύτερο, με μέγιστο ποσοστό επιτυχίας 65%. Ακολούθησαν τα Claude 3 Opus, GPT-4 και Llama 2 70B με μέγιστο ποσοστό επιτυχίας 47%. Τα περισσότερα άλλα μοντέλα δεν ξεπέρασαν το 20%. Παρόλο που τα μοντέλα επιτυγχάνουν καλές επιδόσεις σε τυποποιημένα σημεία αναφοράς όπως το MMLU, πολλά από αυτά απέτυχαν στην επίλυση του AIW.

Πειστικές ψευδείς δηλώσεις

Ένα σημαντικό πρόβλημα που παρατήρησαν οι ερευνητές είναι ότι πολλά μοντέλα, αν και έδιναν λανθασμένες απαντήσεις, κατάφεραν να υπερασπιστούν τα αποτελέσματα τους με πειστικό τρόπο, δίνοντας την εντύπωση στους χρήστες ότι οι εργασίες είχαν λυθεί σωστά. «Τέτοιες ψευδείς δηλώσεις μπορούν να περιλαμβάνουν υπολογισμούς ή δηλώσεις που μοιάζουν λογικές αλλά δεν έχουν νόημα». Παρόμοια προβλήματα παραισθήσεων δεν είναι νέα στα γλωσσικά μοντέλα, αλλά το γεγονός ότι εξακολουθούν να υπάρχουν δείχνει την ανάγκη για περαιτέρω έρευνα και βελτίωση.

Συμπέρασμα

Η μελέτη αποκαλύπτει ανησυχητικά κενά στις δυνατότητες των LLM, παρά τις εντυπωσιακές τους επιδόσεις σε benchmarks. Η αδυναμία τους να χειριστούν βασικές λογικές εργασίες, όπως το πρόβλημα της Αλίκης στη χώρα των θαυμάτων, υποδηλώνει την ανάγκη για προσοχή στην ερμηνεία των αποτελεσμάτων τους και για περαιτέρω έρευνα προς την κατεύθυνση της ενίσχυσης της λογικής τους συνοχής και της αξιοπιστίας τους.

Επιπρόσθετες Σκέψεις

  • Η μελέτη εγείρει ερωτήματα σχετικά με την ηθική χρήση των LLM, λαμβάνοντας υπόψη την ικανότητά τους να παράγουν πειστικές αλλά λανθασμένες πληροφορίες.
  • Είναι σημαντικό να τονίσουμε ότι η μελέτη εστιάζει σε ένα συγκεκριμένο πρόβλημα και τα αποτελέσματα ίσως μην γενικεύονται σε όλες τις εργασίες.
  • Απαιτείται περαιτέρω έρευνα για να διερευνηθούν οι αιτίες των σφαλμάτων των LLM στο AIW και να αναπτυχθούν λύσεις για την βελτίωση της απόδοσής τους.
Στέλιος Θεοδωρίδης
Στέλιος Θεοδωρίδης
Ο ήρωας μου είναι ο γάτος μου ο Τσάρλι και ακροάζομαι μόνο Psychedelic Trance
RELATED ARTICLES

Πρόσφατα άρθρα

Tηλέφωνα έκτακτης ανάγκης

Δίωξη Ηλεκτρονικού Εγκλήματος: 11188
Ελληνική Αστυνομία: 100
Χαμόγελο του Παιδιού: 210 3306140
Πυροσβεστική Υπηρεσία: 199
ΕΚΑΒ 166