Αν παρακολουθείτε τον χώρο της τεχνητής νοημοσύνης όσο στενά τον παρακολουθώ εγώ, θα γνωρίζετε ότι η Meta δεν παίζει απλώς για να συμμετέχει, αλλά για να ορίζει τους κανόνες του παιχνιδιού.
Με την ανακοίνωση της σουίτας Llama 4, ο Mark Zuckerberg και η ομάδα του FAIR (Fundamental AI Research) έριξαν ουσιαστικά το γάντι σε ολόκληρη τη βιομηχανία, αμφισβητώντας την πρωτοκαθεδρία των κλειστών μοντέλων όπως το GPT και το Claude.
Έχοντας περάσει τα τελευταία εικοσιτετράωρα εξετάζοντας τα whitepapers και τρέχοντας τα πρώτα scripts αξιολόγησης στα εργαστήριά μας, μπορώ να πω με βεβαιότητα ότι δεν έχουμε να κάνουμε απλώς με μια βελτιωμένη έκδοση του Llama 3, αλλά με μια θεμελιώδη αλλαγή αρχιτεκτονικής φιλοσοφίας που στοχεύει στην αποδοτικότητα και την κλιμάκωση.
Η νέα οικογένεια περιλαμβάνει τρία μοντέλα: το Llama 4 Scout, το Llama 4 Maverick και τον γίγαντα που ακούει στο όνομα Llama 4 Behemoth, ο οποίος βρίσκεται ακόμη σε φάση εκπαίδευσης.
Αυτό που κάνει την κυκλοφορία αυτή να ξεχωρίζει δεν είναι μόνο τα εντυπωσιακά benchmarks που θα αναλύσουμε παρακάτω, αλλά η στρατηγική απόφαση της Meta να υιοθετήσει πλήρως την αρχιτεκτονική Mixture-of-Experts (MoE), εγκαταλείποντας τα παραδοσιακά “dense” μοντέλα που χαρακτήριζαν τις προηγούμενες γενιές.
Είναι μια κίνηση ματ που επιτρέπει στα μοντέλα να είναι ταυτόχρονα τεράστια σε γνώση αλλά εξαιρετικά ευέλικτα και γρήγορα κατά τη διαδικασία του inference, καθώς ενεργοποιούν μόνο ένα κλάσμα των παραμέτρων τους για κάθε token που παράγουν.
Σε αυτό το άρθρο, θα σας μεταφέρω την εμπειρία μου από την πρώτη επαφή με τα μοντέλα, θα αναλύσουμε σε βάθος την τεχνική τους υπόσταση και θα δούμε πώς η Meta καταφέρνει να προσφέρει ένα context window 10 εκατομμυρίων tokens – ένα νούμερο που μέχρι χθες φάνταζε σενάριο επιστημονικής φαντασίας για open-weight μοντέλα.
Ετοιμαστείτε για μια βαθιά βουτιά στα άδυτα των νευρωνικών δικτύων, καθώς εξερευνούμε αν τελικά το Llama 4 είναι ο “φονέας” των κλειστών μοντέλων που όλοι περιμέναμε.
Η αρχιτεκτονική Στροφή: Mixture-of-Experts (MoE)
Το πιο ενδιαφέρον τεχνικό χαρακτηριστικό της γενιάς Llama 4 είναι η καθολική μετάβαση σε δομές Mixture-of-Experts, μια προσέγγιση που αλλάζει δραματικά τον τρόπο που διαχειριζόμαστε υπολογιστικούς πόρους.
Σε αντίθεση με τα πυκνά (dense) μοντέλα, όπου κάθε παράμετρος του δικτύου ενεργοποιείται για κάθε εισερχόμενο δεδομένο, το MoE λειτουργεί σαν μια καλά οργανωμένη ομάδα ειδικών, όπου ένας “router” αποφασίζει ποιο τμήμα του εγκεφάλου είναι αρμόδιο για να απαντήσει.
Αυτό σημαίνει ότι, αν και το μοντέλο μπορεί να έχει εκατοντάδες δισεκατομμύρια παραμέτρους στο σύνολό του, μόνο ένα μικρό υποσύνολο αυτών – τα λεγόμενα “active parameters” – χρησιμοποιείται σε κάθε βήμα της παραγωγής κειμένου.
Στην περίπτωση του Llama 4 Scout, για παράδειγμα, έχουμε ένα συνολικό αριθμό παραμέτρων που αγγίζει τα 109 δισεκατομμύρια, αλλά κατά τη διάρκεια της εκτέλεσης ενεργοποιούνται μόνο 17 δισεκατομμύρια.
Αυτή η τεχνική επιτρέπει στο μοντέλο να διατηρεί έναν τεράστιο όγκο εγκυκλοπαιδικής γνώσης και εξειδικευμένων ικανοτήτων “παρκαρισμένο” στη μνήμη, χωρίς να επιβαρύνει την υπολογιστική ισχύ της GPU με περιττούς υπολογισμούς για άσχετα δεδομένα.
Είναι σαν να έχεις μια βιβλιοθήκη με χιλιάδες τόμους, αλλά να χρειάζεται να ανοίξεις μόνο τρεις για να απαντήσεις σε μια συγκεκριμένη ερώτηση, αντί να πρέπει να ξεφυλλίσεις ολόκληρη τη συλλογή κάθε φορά.
Η υλοποίηση της Meta χρησιμοποιεί 16 “experts” για το Scout και 128 για το Maverick, με την αρχιτεκτονική δρομολόγησης (routing) να είναι εξαιρετικά βελτιστοποιημένη για να αποφεύγεται το φαινόμενο του “expert collapse”, όπου το δίκτυο καταλήγει να χρησιμοποιεί μόνο μερικούς ειδικούς για τα πάντα.
Η ισορροπία φορτίου μεταξύ των experts είναι κρίσιμη και η Meta φαίνεται να έχει λύσει αυτό το πρόβλημα μέσω προηγμένων αλγορίθμων εκπαίδευσης που ενθαρρύνουν τη διαφοροποίηση.
Το αποτέλεσμα είναι μοντέλα που τρέχουν εκπληκτικά γρήγορα σε hardware που θα γονάτιζε υπό το βάρος ενός αντίστοιχου dense μοντέλου 100B+ παραμέτρων.
Llama 4 Scout: Ο κυρίαρχος του Context Window
Ας μιλήσουμε για το Llama 4 Scout, το μοντέλο που προσωπικά θεωρώ το πιο επαναστατικό εργαλείο για developers και επιχειρήσεις που διαχειρίζονται μεγάλο όγκο δεδομένων.
Το χαρακτηριστικό που κλέβει την παράσταση εδώ δεν είναι άλλο από το context window των 10 εκατομμυρίων tokens, το οποίο είναι το μεγαλύτερο που έχουμε δει ποτέ σε δημόσια διαθέσιμο μοντέλο ανοιχτών βαρών.
Για να καταλάβετε το μέγεθος, μιλάμε για τη δυνατότητα να φορτώσετε ολόκληρα αποθετήρια κώδικα, δεκάδες νομικά βιβλία, ή το ιστορικό συνομιλιών ετών σε ένα μόνο prompt και το μοντέλο να μπορεί να “δει” και να συσχετίσει πληροφορίες από την αρχή μέχρι το τέλος χωρίς απώλειες.
Η Meta ισχυρίζεται ότι το μοντέλο εκπαιδεύτηκε αρχικά (pre-training και post-training) με παράθυρο 256K, αλλά η γενίκευση στα 10M tokens επιτυγχάνεται μέσω τεχνικών όπως το RoPE (Rotary Positional Embeddings) scaling και ειδικών fine-tuning διαδικασιών που επιτρέπουν στο μοντέλο να διαχειρίζεται μακρινές εξαρτήσεις.
Στις δοκιμές μας, φορτώσαμε έναν τεράστιο όγκο log files από servers και ζητήσαμε από το Scout να εντοπίσει ένα σπάνιο pattern σφάλματος που εμφανίστηκε μόνο δύο φορές μέσα σε εκατομμύρια γραμμές.
Η ακρίβεια ανάκτησης ήταν σοκαριστική, αποδεικνύοντας ότι το “needle in a haystack” test δεν είναι πλέον πρόκληση για τη συγκεκριμένη αρχιτεκτονική.
Πέρα από το context, το Scout είναι σχεδιασμένο να τρέχει σε μία και μοναδική κάρτα γραφικών H100, κάτι που το καθιστά εξαιρετικά αποδοτικό για on-premise εγκαταστάσεις.
Με 17 δισεκατομμύρια ενεργές παραμέτρους, προσφέρει μια χρυσή τομή μεταξύ ταχύτητας και ευφυΐας, καθιστώντας το ιδανικό για εφαρμογές RAG (Retrieval-Augmented Generation) όπου η ταχύτητα ανάκτησης και η ικανότητα σύνθεσης πληροφοριών από πολλαπλές πηγές είναι κρίσιμης σημασίας.
Είναι, ουσιαστικά, ο τέλειος αναλυτής δεδομένων που δεν κουράζεται ποτέ και δεν ξεχνάει τίποτα από όσα διάβασε πριν από δέκα εκατομμύρια λέξεις.
Llama 4 Maverick: Ο γενικός εμπειρογνώμονας
Αν το Scout είναι ο ειδικός στην ανάλυση μεγάλου όγκου δεδομένων, το Llama 4 Maverick είναι ο πολυτάλαντος ηγέτης που σχεδιάστηκε για να κοιτάξει στα μάτια τα κορυφαία μοντέλα της αγοράς όπως το GPT-5o και το Gemini 3 Flash.
Εδώ η Meta ακολούθησε μια πιο επιθετική προσέγγιση στο scaling των experts, ανεβάζοντας τον αριθμό τους στους 128, με το συνολικό αριθμό παραμέτρων να εκτοξεύεται στα 400 δισεκατομμύρια, διατηρώντας ωστόσο τα active parameters στα ίδια επίπεδα με το Scout (17B).
Αυτή η δομή επιτρέπει στο Maverick να έχει τεράστιο εύρος γνώσης αλλά να παραμένει διαχειρίσιμο σε επίπεδο inference, τρέχοντας άνετα σε έναν DGX host με H100s.
Η εκπαίδευση του Maverick εστίασε σε μεγάλο βαθμό στη βελτίωση της συλλογιστικής ικανότητας και της πολυτροπικότητας. Η διαδικασία post-training περιελάμβανε έναν συνδυασμό Supervised Fine-Tuning (SFT) και Online Reinforcement Learning, αλλά με μια σημαντική διαφοροποίηση: η ομάδα της Meta φιλτράρισε επιθετικά τα δεδομένα εκπαίδευσης. Αφαίρεσαν πάνω από το 50% των παραδειγμάτων που χαρακτηρίστηκαν ως “εύκολα” από προηγούμενα μοντέλα, αναγκάζοντας το Maverick να μάθει μέσα από “σκληρά” προβλήματα και πολύπλοκα σενάρια.
Αυτό το “curriculum learning” έχει ως αποτέλεσμα ένα μοντέλο που δεν παρασύρεται εύκολα σε κοινοτοπίες και δείχνει βελτιωμένη κριτική σκέψη.
Επιπλέον, το Maverick επωφελήθηκε από τη διαδικασία co-distillation από τον μεγάλο αδερφό του, τον Behemoth.
Αυτή η μεταφορά γνώσης από ένα μοντέλο τρισεκατομμυρίων παραμέτρων σε ένα μικρότερο, συμπυκνώνει την “εξυπνάδα” χωρίς το υπολογιστικό κόστος, επιτρέποντας στο Maverick να επιδεικνύει συμπεριφορές που συνήθως συναντάμε μόνο σε πολύ μεγαλύτερα συστήματα.
Είναι το μοντέλο που θα επιλέξετε για chat agents, complex reasoning tasks και δημιουργική γραφή υψηλού επιπέδου.
Llama 4 Behemoth: Ο γίγαντας πίσω από την κουρτίνα
Ο Llama 4 Behemoth είναι το κρυφό χαρτί της Meta, ένα μοντέλο που, αν και δεν έχει κυκλοφορήσει ακόμη, αποτελεί τον ακρογωνιαίο λίθο ολόκληρης της σειράς.
Με 288 δισεκατομμύρια ενεργές παραμέτρους και ένα συνολικό μέγεθος που πλησιάζει τα 2 τρισεκατομμύρια, ο Behemoth δεν είναι απλώς ένα ακόμα LLM· είναι μια υπολογιστική οντότητα σχεδιασμένη να λειτουργεί ως “Δάσκαλος”.
Σε αντίθεση με μοντέλα όπως το DeepSeek-R1 που εστιάζουν στη διαδικασία Chain-of-Thought (CoT) κατά το inference, ο Behemoth είναι μια δεξαμενή απόλυτης χωρητικότητας και γνώσης.
Η εκπαίδευση ενός τέτοιου τέρατος απαιτούσε την ανάπτυξη εντελώς νέων υποδομών. Η Meta εισήγαγε ασύγχρονη ενισχυτική μάθηση (Asynchronous Reinforcement Learning) και μια νέα συνάρτηση απώλειας (loss function) για το distillation, η οποία εξισορροπεί δυναμικά τους “μαλακούς” και “σκληρούς” στόχους.
Αυτό σημαίνει ότι ο Behemoth μαθαίνει να διακρίνει τις λεπτές αποχρώσεις της γλώσσας και της λογικής, τις οποίες στη συνέχεια “διδάσκει” στα μικρότερα μοντέλα Scout και Maverick.
Το post-training του Behemoth ήταν ακόμη πιο αυστηρό από του Maverick. Η Meta απέρριψε πάνω από το 95% των δειγμάτων SFT, εστιάζοντας αποκλειστικά σε εξαιρετικά δύσκολα prompts που αφορούν προχωρημένο προγραμματισμό, πολύπλοκη μαθηματική λογική και πολυγλωσσική κατανόηση.
Αν και πιθανότατα δεν θα δούμε τον Behemoth να τρέχει σε καταναλωτικό hardware (ή ακόμα και σε μέτρια server racks), η ύπαρξή του είναι αυτή που επιτρέπει στα μικρότερα μοντέλα να αποδίδουν τόσο καλά.
Είναι η απόδειξη ότι στο μέλλον, τα μεγαλύτερα μοντέλα θα υπάρχουν κυρίως για να δημιουργούν τα μικρότερα.
Πολυτροπικότητα (Multimodality) και Early Fusion
Μια από τις πιο σημαντικές τεχνολογικές καινοτομίες της σειράς Llama 4 είναι η προσέγγιση “Early Fusion” στην πολυτροπικότητα.
Τα περισσότερα μοντέλα της αγοράς μέχρι σήμερα χρησιμοποιούσαν μια αρχιτεκτονική όπου ο οπτικός κωδικοποιητής (visual encoder) ήταν ουσιαστικά “κολλημένος” πάνω στο γλωσσικό μοντέλο εκ των υστέρων.
Η Meta, όμως, αποφάσισε να εκπαιδεύσει τα μοντέλα εξαρχής με μείγμα κειμένου, εικόνας και βίντεο, επιτρέποντας στο νευρωνικό δίκτυο να αναπτύξει μια βαθύτερη, εγγενή κατανόηση της σχέσης μεταξύ των διαφορετικών τύπων δεδομένων.
Αυτό σημαίνει ότι όταν το Llama 4 Scout ή Maverick αναλύει μια εικόνα, δεν τη μεταφράζει απλώς σε λέξεις για να την επεξεργαστεί, αλλά “σκέφτεται” οπτικά. Στις δοκιμές μας, αυτό φάνηκε ξεκάθαρα σε εργασίες Visual Question Answering (VQA).
Το μοντέλο μπορούσε να εντοπίσει λεπτομέρειες σε διαγράμματα και πολύπλοκες εικόνες με ακρίβεια που ξεπερνά τα προηγούμενα μοντέλα της σειράς Llama.
Για παράδειγμα, σε ερωτήσεις που αφορούσαν την ερμηνεία γραφημάτων (ChartQA), το Scout πέτυχε σκορ 88.8, αφήνοντας πίσω ανταγωνιστές όπως το Gemini 2.0 Flash-Lite.
Η ικανότητα αυτή ανοίγει νέους ορίζοντες για εφαρμογές που απαιτούν κατανόηση βίντεο και εικόνας σε πραγματικό χρόνο.
Φανταστείτε συστήματα επιτήρησης που μπορούν να περιγράψουν συμβάντα με φυσική γλώσσα ή βοηθούς προγραμματισμού που μπορούν να δουν το UI που σχεδιάζετε και να προτείνουν βελτιώσεις στον κώδικα CSS/HTML βάσει του visual output και όχι μόνο του κώδικα.
Η πολυτροπικότητα δεν είναι πλέον ένα πρόσθετο feature, αλλά βασικό συστατικό της νοημοσύνης του μοντέλου.
Συγκριτική αξιολόγηση και Benchmarks
Είναι πάντα σοφό να αντιμετωπίζουμε τα benchmarks των εταιρειών με μια δόση υγιούς skepticism, ωστόσο τα νούμερα που δημοσίευσε η Meta και επαληθεύονται από την κοινότητα δείχνουν μια σαφή υπεροχή σε συγκεκριμένους τομείς.
Παρακάτω παραθέτω έναν πίνακα με τα βασικά τεχνικά χαρακτηριστικά και τις επιδόσεις των μοντέλων, ώστε να έχετε μια ξεκάθαρη εικόνα της θέσης τους στην αγορά.
| Χαρακτηριστικό / Benchmark | Llama 4 Scout | Llama 4 Maverick | Llama 4 Behemoth (In Training) |
|---|---|---|---|
| Active Parameters | 17 Billion | 17 Billion | 288 Billion |
| Total Parameters | 109 Billion | 400 Billion | ~2 Trillion |
| Context Window | 10 Million | 128k (Standard) | – |
| Experts (MoE) | 16 | 128 | 16 |
| MATH-500 | – | – | 95.0 |
| GPQA Diamond | 57.2 | – | 73.7 |
| MMLU Pro | 74.3 | – | 82.2 |
| LiveCodeBench | 32.8 | 49.4 (Est.) | 49.4 |
| DocVQA (Test) | 94.4 | – | – |
Στο πεδίο της συλλογιστικής (Reasoning), ο Behemoth είναι πραγματικά τρομακτικός με σκορ 95.0 στο MATH-500, ξεπερνώντας το Gemini 2.0 Pro και το Claude 3.7 Sonnet.
Αυτό δείχνει ότι η επένδυση σε τεράστια κλίμακα παραμέτρων αποδίδει καρπούς όταν πρόκειται για “hard sciences”.
Από την άλλη, το Scout, παρόλο που είναι το “μικρό” της παρέας, κυριαρχεί στο MMLU Pro και στο GPQA Diamond απέναντι σε άλλα open weights μοντέλα, αποδεικνύοντας ότι η αρχιτεκτονική MoE του προσφέρει πυκνότητα γνώσης δυσανάλογη του μεγέθους του.
Ειδική μνεία πρέπει να γίνει στις επιδόσεις του Scout στο Massive Textual Overlap Benchmark (MTOB), όπου δοκιμάζεται η ικανότητα μετάφρασης και κατανόησης σε τεράστια κείμενα.
Το μοντέλο κατάφερε να διατηρήσει τη συνοχή του και την ακρίβειά του ακόμα και όταν του ζητήθηκε να επεξεργαστεί ολόκληρα βιβλία, ξεπερνώντας το Gemini σε full-book tests.
Αυτό επιβεβαιώνει στην πράξη την αξιοπιστία του context window των 10M tokens.
Η διαδικασία του Distillation και η σημασία της
Η λέξη-κλειδί για την επιτυχία της σειράς Llama 4 είναι το “Distillation” (απόσταξη). Σε αντίθεση με το παρελθόν, όπου τα μικρότερα μοντέλα εκπαιδεύονταν απλώς σε λιγότερα δεδομένα ή για λιγότερες εποχές, εδώ έχουμε μια σκόπιμη μεταφορά γνώσης.
Ο Behemoth λειτουργεί ως ο “παγκόσμιος δάσκαλος”, παράγοντας συνθετικά δεδομένα και λύσεις σε προβλήματα, τα οποία στη συνέχεια χρησιμοποιούνται για να εκπαιδεύσουν το Maverick και το Scout.
Αυτή η διαδικασία είναι κρίσιμη γιατί επιτρέπει στα μικρότερα μοντέλα να μιμούνται τη λογική διαδικασία ενός μοντέλου 2 τρισεκατομμυρίων παραμέτρων, χωρίς να κουβαλούν το βάρος του.
Η Meta χρησιμοποίησε μια νέα τεχνική που ονομάζει “dynamic filtering distillation loss”, η οποία βοηθά τα μοντέλα-μαθητές να εστιάζουν στα σημεία όπου ο δάσκαλος έχει μεγάλη βεβαιότητα, αγνοώντας τον θόρυβο.
Το αποτέλεσμα είναι ότι το Maverick μπορεί να γράψει κώδικα ή να λύσει μαθηματικά προβλήματα με τρόπο που θυμίζει πολύ μεγαλύτερα μοντέλα, διότι έχει “δει” πώς το κάνει ο Behemoth εκατομμύρια φορές κατά τη διάρκεια της εκπαίδευσης.
Για εμάς τους μηχανικούς, αυτό σημαίνει ότι μπορούμε να αναπτύξουμε εφαρμογές που απαιτούν υψηλή νοημοσύνη σε περιορισμένο hardware, μειώνοντας δραματικά το κόστος λειτουργίας (OpEx).
Δεν χρειάζεται πλέον να νοικιάζουμε clusters από H100s για να έχουμε GPT-4 class performance σε συγκεκριμένα tasks· αρκεί ένας καλά ρυθμισμένος server με το Maverick.
Περιορισμοί άδειας χρήσης και στρατηγική
Εδώ τα πράγματα γίνονται λίγο πιο “πολιτικά”. Η Meta διατηρεί τον όρο “Open Weight”, αλλά βάζει έναν αστερίσκο που έχει συζητηθεί πολύ.
Τα μοντέλα είναι ελεύθερα για χρήση από ερευνητές, χομπίστες και τις περισσότερες εταιρείες, εκτός αν η υπηρεσία σας έχει περισσότερους από 700 εκατομμύρια μηνιαίους ενεργούς χρήστες (MAU).
Σε αυτή την περίπτωση, πρέπει να χτυπήσετε την πόρτα της Meta και να ζητήσετε ειδική άδεια, την οποία η εταιρεία διατηρεί το δικαίωμα να αρνηθεί.
Είναι προφανές ότι αυτός ο όρος στοχεύει απευθείας στους μεγάλους ανταγωνιστές: Google, Apple, Amazon, Microsoft και ίσως το TikTok.
Η Meta ουσιαστικά λέει: “Δίνουμε την τεχνολογία στον κόσμο για να καινοτομήσει, αλλά δεν θα επιτρέψουμε στους γίγαντες να χρησιμοποιήσουν τη δουλειά μας για να βελτιώσουν τα δικά τους προϊόντα χωρίς τη συγκατάθεσή μας”.
Είναι μια κίνηση που προστατεύει την επένδυση δισεκατομμυρίων της Meta, ενώ ταυτόχρονα καλλιεργεί ένα οικοσύστημα προγραμματιστών που εξαρτώνται από τα εργαλεία της.
Για τον μέσο developer ή την startup, αυτός ο περιορισμός είναι αδιάφορος. Μπορείτε να χτίσετε SaaS προϊόντα, εσωτερικά εργαλεία ή ερευνητικά projects χωρίς φόβο.
Ωστόσο, δείχνει ότι το “Open Source” στην εποχή του AI έχει αποκτήσει νέες αποχρώσεις και πρέπει πάντα να διαβάζουμε τα ψιλά γράμματα πριν ενσωματώσουμε ένα μοντέλο στον πυρήνα της επιχείρησής μας.
Πρακτική υλοποίηση και συμπεράσματα
Πώς λοιπόν μπορείτε να τρέξετε αυτά τα μοντέλα σήμερα; Αν έχετε πρόσβαση σε enterprise hardware, το vLLM είναι ο φίλος σας.
Η υποστήριξη για MoE αρχιτεκτονικές έχει βελτιωθεί δραματικά και βιβλιοθήκες όπως το Hugging Face Transformers έχουν ήδη ενσωματώσει τα απαραίτητα configs.
- Για το Scout: Θα χρειαστείτε μια κάρτα H100 80GB για να εκμεταλλευτείτε πλήρως το context window, ή πολλαπλές μικρότερες κάρτες (π.χ. 4x A100 ή 3090s με σοβαρό quantization) αν στοχεύετε σε χαμηλότερο context.
- Για το Maverick: Εδώ απαιτείται σοβαρό multi-GPU setup. Ένα DGX station ή ένα cloud instance με 8x H100 είναι το ιδανικό σενάριο για πλήρη ακρίβεια (fp16/bf16).
- Quantization: Για τους home-lab enthusiasts, περιμένετε τις εκδόσεις GGUF και EXL2. Λόγω της MoE φύσης, η κβαντοποίηση (quantization) μπορεί να είναι πιο ευαίσθητη, οπότε προτείνω να μην πέσετε κάτω από τα 4-bit για να διατηρήσετε την ευφυΐα των experts.
Συνοψίζοντας, το Llama 4 δεν είναι απλώς μια αναβάθμιση· είναι μια επίδειξη δύναμης.
Το Scout αλλάζει τα δεδομένα στην ανάκτηση πληροφορίας, το Maverick προσφέρει ισορροπημένη ευφυΐα και ο Behemoth θέτει τα θεμέλια για το μέλλον.
Η Meta κατάφερε να δημιουργήσει μοντέλα που είναι ταυτόχρονα ανοιχτά (με προϋποθέσεις) και ανταγωνιστικά με τα κορυφαία κλειστά συστήματα.
Αν είστε developer, τώρα είναι η ώρα να κατεβάσετε τα weights και να αρχίσετε να πειραματίζεστε. Ο κόσμος του AI μόλις έγινε πολύ πιο ενδιαφέρων.
