ΑρχικήΛογισμικάgpt-oss-120b: Δοκιμή, αξιολόγηση, πληροφορίες και τεχνικά χαρακτηριστικά

gpt-oss-120b: Δοκιμή, αξιολόγηση, πληροφορίες και τεχνικά χαρακτηριστικά

Η μεγάλη ανατροπή: Όταν το “κλειστό” έγινε “ανοιχτό”

Αν μου λέγατε πριν 2 χρόνια ότι η OpenAI θα κυκλοφορούσε ένα μοντέλο 120 δισεκατομμυρίων παραμέτρων, με άδεια Apache 2.0 και θα μας άφηνε να βλέπουμε ακριβώς τι σκέφτεται (Chain of Thought), θα σας έλεγα να κόψετε την επιστημονική φαντασία.

Κι όμως, βρισκόμαστε στον Ιανουάριο του 2026, και το gpt-oss-120b τρέχει στον server μου.

Δεν πρόκειται απλώς για ένα ακόμη LLM. Είναι η στιγμή που η “κοινή λογική” της αγοράς άλλαξε. Το μοντέλο αυτό δεν είναι ένα απομεινάρι που πέταξαν στο GitHub για PR.

Είναι ένα εργαλείο παραγωγής (production-grade), σχεδιασμένο να τρέχει τοπικά, και υπόσχεται να φέρει τις δυνατότητες του o4-mini στο δικό μας hardware.

Το έχω λιώσει στις δοκιμές τις τελευταίες εβδομάδες και έχω πολλά να πω — κάποια ενθουσιώδη και κάποια που θα σας κάνουν να αναθεωρήσετε το budget σας για GPU.

Αρχιτεκτονική: Το θαύμα των MoE και του MXFP4

Εδώ είναι το ζουμί της υπόθεσης. Το gpt-oss-120b δεν είναι ένα “πυκνό” (dense) τέρας που απαιτεί ένα data center για να πάρει μπρος.

Βασίζεται σε αρχιτεκτονική Mixture-of-Experts (MoE), και η υλοποίηση είναι εξαιρετικά επιθετική.

Μιλάμε για συνολικά 117 δισεκατομμύρια παραμέτρους. Ωστόσο, κατά τη διάρκεια του inference (της παραγωγής απάντησης), ενεργοποιούνται μόλις 5.1 δισεκατομμύρια παράμετροι ανά token. Πώς γίνεται αυτό;

Το μοντέλο διαθέτει 36 layers και, κρατηθείτε, 128 experts. Σε αντίθεση με παλαιότερα MoE που είχαν 8 ή 16 experts, εδώ έχουμε μια πολύ υψηλή “κοκκίδωση” (granularity). Ο router επιλέγει τους top experts (συνήθως 4) για κάθε token.

Το πραγματικό τεχνικό επίτευγμα όμως είναι η κωδικοποίηση MXFP4 (Microscaling Formats). Οι μηχανικοί της OpenAI κατάφεραν να συμπιέσουν τα βάρη των experts σε περίπου 4-bit χωρίς να διαλύσουν την ακρίβεια του μοντέλου.

Αυτό σημαίνει ότι το 90% των παραμέτρων είναι κβαντισμένο, επιτρέποντας σε αυτό το κτήνος να χωρέσει σε μία και μοναδική κάρτα H100 80GB. Είναι μια μαεστρία συμπίεσης που σπάνια βλέπουμε σε open-weights.

Hardware: Η πικρή αλήθεια της τοπικής εκτέλεσης

Ωραία τα θεωρητικά περί συμπίεσης, αλλά τι σημαίνει αυτό για εμάς τους “κοινούς θνητούς” ή τις μικρομεσαίες εταιρείες;

Για να τρέξει το gpt-oss-120b αξιοπρεπώς, χρειάζεστε περίπου 65GB VRAM.

  • Scenario A (Enterprise): Μία NVIDIA H100 (80GB). Τρέχει νεράκι, με native MXFP4 υποστήριξη.
  • Scenario B (Prosumer): Δύο NVIDIA RTX 4090 (24GB + 24GB) = 48GB. Δεν φτάνει. Θα χρειαστείτε τουλάχιστον 3x 3090/4090 ή μια επαγγελματική κάρτα τύπου A6000 Ada.
  • Scenario C (Mac Studio): Εδώ τα πράγματα είναι ενδιαφέροντα. Ένα M3/M4 Ultra με 128GB Unified Memory μπορεί να το σηκώσει άνετα, αν και με χαμηλότερο throughput σε σχέση με τις CUDA κάρτες.

Προσωπικά, το δοκίμασα σε ένα rig με 2x A6000. Η απόκριση ήταν ακαριαία, θυμίζοντας API calls, κάτι που αποδεικνύει ότι τα active parameters (5.1B) είναι όντως αυτά που καθορίζουν την ταχύτητα, όχι το συνολικό μέγεθος.

Εγκατάσταση και το “Harmony” Chat Format

Μην προσπαθήσετε να το τρέξετε με τον κλασικό τρόπο που τρέχετε ένα Llama 3. Το gpt-oss είναι ιδιότροπο με το prompt template. Χρησιμοποιεί το λεγόμενο Harmony Chat Format.

Αν αγνοήσετε το format, το μοντέλο θα αρχίσει να παραληρεί. Το Harmony δεν είναι απλώς User: και Assistant:. Ορίζει αυστηρούς ρόλους και κανάλια επικοινωνίας.

Παράδειγμα δομής (ψευδοκώδικας):

# Παράδειγμα Harmony Format για το gpt-oss-120b
messages = [
    {
        "role": "system",
        "content": "You are a helpful assistant. Maintain high reasoning effort."
    },
    {
        "role": "user",
        "content": "Analyze the time complexity of this sorting algorithm."
    },
    {
        "role": "assistant",
        "content": "Let's analyze this step by step...", # Εδώ ξεκινάει το CoT
        "content_type": "reasoning" # Το μοντέλο διαχωρίζει τη σκέψη από την απάντηση
    }
]

Η χρήση βιβλιοθηκών όπως το vLLM είναι μονόδρομος για αποδοτικό serving, καθώς έχουν ενσωματώσει τα ειδικά kernels για το MXFP4 decoding.

Chain of Thought: Βλέποντας μέσα στο “Μαύρο Κουτί”

Αυτό είναι το αγαπημένο μου κομμάτι. Σε αντίθεση με το o1 ή το o3 που κρύβουν τη διαδικασία σκέψης (“Thinking…”), το gpt-oss-120b μας δίνει πλήρη πρόσβαση στο Chain-of-Thought (CoT).

Μπορείτε να ρυθμίσετε το “Reasoning Effort” σε Low, Medium, ή High.

  • Low: Συμπεριφέρεται σαν ένα έξυπνο GPT-4o. Γρήγορο, to the point.
  • High: Εδώ το μοντέλο “σταματάει” και σκέφτεται. Παράγει χιλιάδες tokens εσωτερικού μονολόγου, διορθώνει τον εαυτό του, ελέγχει υποθέσεις και μετά δίνει την τελική απάντηση.

Σε ένα τεστ λογικής που του έβαλα (ένα σύνθετο πρόβλημα προγραμματισμού δυναμικών συστημάτων), είδα το μοντέλο να γράφει λάθος εξίσωση στο CoT, να το αντιλαμβάνεται (“Wait, this implies negative mass, which is impossible”), και να διορθώνει την πορεία του πριν μου δώσει την απάντηση.

Αυτή η διαφάνεια είναι ανεκτίμητη για debugging πολύπλοκων prompts.

Coding και Agentic δυνατότητες: Είναι ο νέος Βασιλιάς;

Στον τομέα του προγραμματισμού, το gpt-oss-120b χτυπάει κόκκινο. Στο SWE-Bench Verified, αγγίζει το 62.4%, νούμερο που το τοποθετεί πολύ κοντά στα proprietary μοντέλα.

Δοκίμασα να του ζητήσω να γράψει ένα Rust crate για async file handling. Όχι μόνο έγραψε τον κώδικα, αλλά ο εσωτερικός του μονόλογος εξήγησε γιατί επέλεξε το tokio έναντι του async-std για τη συγκεκριμένη περίπτωση.

Επιπλέον, είναι σχεδιασμένο για Tool Use. Αν του δώσετε πρόσβαση σε τερματικό ή browser (μέσω tools), ξέρει πότε να σταματήσει την παραγωγή κειμένου, να εκτελέσει μια εντολή, να διαβάσει το output και να συνεχίσει. Δεν χρειάζεται πολύπλοκο prompt engineering για να το πείσεις να χρησιμοποιήσει εργαλεία· είναι “native” συμπεριφορά.

Απόδοση στα ελληνικά και πολυγλωσσικότητα

Ως Έλληνας, το πρώτο πράγμα που κάνω είναι να δω αν το μοντέλο μιλάει “Google Translate Greek” ή φυσικά Ελληνικά.

Το gpt-oss-120b με εξέπληξε. Χειρίζεται την ελληνική γραμματική (ειδικά τις πτώσεις και τους τόνους σε λέξεις με διπλή ανάγνωση) εξαιρετικά καλά.

Σε δοκιμή μετάφρασης τεχνικού κειμένου από Αγγλικά σε Ελληνικά, διατήρησε την ορολογία (π.χ. “latency”, “throughput”) χωρίς να τις μεταφράζει άτσαλα (“λανθάνων χρόνος”, “διαμετακομιστική ικανότητα”) όταν δεν έπρεπε, κάτι που δείχνει ότι έχει εκπαιδευτεί σε σύγχρονα corpora και όχι μόνο σε βιβλία του 1990.

Βέβαια, στο “High Reasoning” mode, μερικές φορές ο εσωτερικός μονόλογος γυρνάει στα Αγγλικά για να λύσει το πρόβλημα και μετά απαντάει στα Ελληνικά. Αυτό είναι αναμενόμενο και, ουσιαστικά, επιθυμητό για μέγιστη ακρίβεια.

Πίνακας Τεχνικών Χαρακτηριστικών

Ας δούμε τα νούμερα συγκεντρωμένα για να έχετε μια ξεκάθαρη εικόνα.

ΧαρακτηριστικόΤιμή / Περιγραφή
Συνολικές Παράμετροι117 Billion
Active Parameters (per token)~5.1 Billion
ΑρχιτεκτονικήMixture-of-Experts (MoE), 36 layers, 128 Experts
Context Window131,072 tokens (128k)
QuantizationNative MXFP4 (Microscaling Formats)
VRAM Απαίτηση~65GB (για το μοντέλο + KV cache)
Άδεια ΧρήσηςApache 2.0
Training Data CutoffΟκτώβριος 2025 (εκτίμηση)
Ειδικές ΛειτουργίεςFull Chain-of-Thought, Harmony Chat Format

Safeguards: Το safeguard variant

Πρέπει να αναφέρω ότι η OpenAI κυκλοφόρησε και μια παραλλαγή: το gpt-oss-safeguard-120b.

Αυτό το μοντέλο είναι fine-tuned ώστε να είναι εξαιρετικά συντηρητικό και ασφαλές, ιδανικό για εταιρικά περιβάλλοντα που φοβούνται το PR disaster.

Ωστόσο, για ερευνητές και developers, το βασικό μοντέλο (gpt-oss-120b) είναι αυτό που θέλετε. Είναι “υπάκουο” αλλά όχι “ευνουχισμένο”.

Το safeguard μοντέλο τείνει να αρνείται prompts που είναι στο “γκρι” φάσμα (π.χ. cybersecurity penetration testing scenarios), ενώ το βασικό μοντέλο, με το σωστό context, θα συνεργαστεί.

Συμπέρασμα: Αξίζει μετάβαση σε αυτό το μοντέλο;

Το gpt-oss-120b είναι ένα ορόσημο. Είναι η πρώτη φορά που έχουμε ένα μοντέλο με δυνατότητες “reasoning” (τύπου o1/o3) που μπορούμε να τρέξουμε στο δικό μας infrastructure, χωρίς να στέλνουμε δεδομένα σε τρίτους.

Είναι τέλειο; Όχι. Οι απαιτήσεις hardware είναι ακόμα απαγορευτικές για τον χομπίστα με μια gaming κάρτα.

Αλλά για ερευνητικά εργαστήρια, startups και επιχειρήσεις, είναι game changer. Η σχέση απόδοσης/κόστους (αν έχετε ήδη το hardware) είναι ασυναγώνιστη.

Αν έχετε τα GPU resources, κατεβάστε το χθες. Αν όχι, ήρθε η ώρα να κοιτάξετε σοβαρά τις cloud GPU υπηρεσίες τύπου RunPod ή Lambda Labs, γιατί αυτό το μοντέλο αξίζει κάθε λεπτό του ευρώ που θα κάψετε σε ρεύμα.

Το μέλλον είναι ανοιχτό, και ευτυχώς, είναι και έξυπνο.

Διάβασε επίσης και τις αξιολογήσεις των μοντέλων Gemini 3 pro, GPT 5.2 και Claude Opus 4.5 και το KAT-Coder-Pro V1.

Στέλιος Θεοδωρίδης
Στέλιος Θεοδωρίδης
Ο ήρωας μου είναι ο γάτος μου ο Τσάρλι και ακροάζομαι μόνο Psychedelic Trance
RELATED ARTICLES

Πρόσφατα άρθρα

Tηλέφωνα έκτακτης ανάγκης

Δίωξη Ηλεκτρονικού Εγκλήματος: 11188
Ελληνική Αστυνομία: 100
Χαμόγελο του Παιδιού: 210 3306140
Πυροσβεστική Υπηρεσία: 199
ΕΚΑΒ 166