DeepSeek: Πως η μικρή κινεζική startup τεχνητής νοημοσύνης συγκλόνισε τους ειδικούς

Ο δισεκατομμυριούχος Λιανγκ Γουενφένγκ (αγγλικά: Liang Wenfeng), κατόρθωσε να κατασκευάσει ένα προηγμένο μοντέλο τεχνητής νοημοσύνης με περιορισμένο οικονομικό προϋπολογισμό, αναγκάζοντας όλους τους γνώστες του αντικειμένου να υποκλιθούν σε αυτόν για τούτο επίτευγμα.

Ένα μικρό κινεζικό εργαστήριο τεχνητής νοημοσύνης κατέπληξε τον κόσμο αυτή την εβδομάδα, αποκαλύπτοντας τη «συνταγή» για το προηγμένο μοντέλο του. Αυτό μετέτρεψε τον εσωστρεφή ιδρυτή του σε εθνικό ήρωα, ο οποίος αψήφησε τις αμερικανικές προσπάθειες να σταματήσουν την τεχνολογική ανάπτυξη της Κίνας.

Η DeepSeek, που ιδρύθηκε από τον διαχειριστή hedge fund Λιανγκ Γουενφένγκ, παρουσίασε το μοντέλο R1 τη περασμένη Δευτέρα, εξηγώντας σε μια λεπτομερή μελέτη πως να κατασκευάσει ένα μεγάλο γλωσσικό μοντέλο με περιορισμένο προϋπολογισμό, το οποίο μπορεί να μαθαίνει και να βελτιώνεται αυτόματα, χωρίς ανθρώπινη παρέμβαση.

Αμερικανικές εταιρείες, όπως η OpenAI και η Google DeepMind, πρωτοστάτησαν στην ανάπτυξη μοντέλων συλλογισμού, ενός σχετικά νέου τομέα έρευνας στην τεχνητή νοημοσύνη, που στοχεύει στην εξομοίωση των ανθρώπινων γνωστικών ικανοτήτων. Τον Δεκέμβριο, η OpenAI, με έδρα το Σαν Φρανσίσκο, κυκλοφόρησε την πλήρη έκδοση του μοντέλου o1, αλλά κράτησε τις μεθόδους της μυστικές.

Η κυκλοφορία του R1 από τη DeepSeek προκάλεσε έντονη συζήτηση στη Silicon Valley σχετικά με το αν οι αμερικανικές εταιρείες τεχνητής νοημοσύνης με περισσότερους πόρους, όπως η Meta και η Anthropic, μπορούν να διατηρήσουν το τεχνολογικό τους πλεονέκτημα. Παράλληλα, ο Λιανγκ έχει γίνει σύμβολο εθνικής υπερηφάνειας στην Κίνα.

Αυτή την εβδομάδα, ήταν ο μόνος ηγέτης στον τομέα της τεχνητής νοημοσύνης που επιλέχθηκε να παρευρεθεί σε μια δημόσια συνάντηση επιχειρηματιών με τον δεύτερο ισχυρότερο ηγέτη της χώρας, τον πρωθυπουργό Λι Τσιανγκ. Στους επιχειρηματίες δόθηκε η εντολή να «εντείνουν τις προσπάθειες για να ξεπεράσουν βασικές τεχνολογικές προκλήσεις».

Το 2021, ο Λιανγκ άρχισε να αγοράζει χιλιάδες μονάδες επεξεργασίας γραφικών Nvidia για το παράπλευρο έργο του στην τεχνητή νοημοσύνη, ενώ παράλληλα διαχειριζόταν το ταμείο κερδοσκοπικών συναλλαγών High-Flyer. Οι γνώστες του κλάδου το θεωρούσαν ως τις εκκεντρικές πράξεις ενός δισεκατομμυριούχου που έψαχνε ένα νέο χόμπι.

«Όταν τον συναντήσαμε για πρώτη φορά, ήταν ένας πολύ σπασίκλας τύπος με απαίσιο χτένισμα που μιλούσε για την κατασκευή ενός συμπλέγματος 10.000 τσιπ για να εκπαιδεύσει τα δικά του μοντέλα. Δεν τον πήραμε στα σοβαρά», είπε ένας από τους επιχειρηματικούς συνεργάτες του Λιανγκ.

«Δεν μπορούσε να αρθρώσει το όραμά του, πέρα από το να λέει: Θέλω να το χτίσω αυτό και θα αλλάξει τα δεδομένα. Νομίζαμε ότι αυτό ήταν εφικτό μόνο από κολοσσούς όπως η ByteDance και η Alibaba», πρόσθεσε το ίδιο άτομο.

Η θέση του Λιανγκ ως εξωτερικού στον τομέα της τεχνητής νοημοσύνης ήταν μια απροσδόκητη πηγή δύναμης. Στην High-Flyer, δημιούργησε μια περιουσία χρησιμοποιώντας τεχνητή νοημοσύνη και αλγόριθμους για να εντοπίσει μοτίβα που θα μπορούσαν να επηρεάσουν τις τιμές των μετοχών. Η ομάδα του απέκτησε μεγάλη εμπειρία στη χρήση τσιπ Nvidia για να κερδίζει χρήματα από τις συναλλαγές μετοχών. Το 2023, ξεκίνησε τη DeepSeek, ανακοινώνοντας την πρόθεση του να αναπτύξει τεχνητή νοημοσύνη στο επίπεδο του ανθρώπου.

«Ο Λιανγκ δημιούργησε μια εξαιρετική ομάδα υποδομής που κατανοεί πραγματικά πώς λειτουργούν τα τσιπ», δήλωσε ένας ιδρυτής σε μια ανταγωνιστική εταιρεία LLM. «Πήρε τους καλύτερους ανθρώπους του από το hedge fund στη DeepSeek».

Μετά την απαγόρευση της Ουάσινγκτον στις εξαγωγές των πιο ισχυρών τσιπ της Nvidia στην Κίνα, οι τοπικές εταιρείες τεχνητής νοημοσύνης αναγκάστηκαν να βρουν καινοτόμους τρόπους για να μεγιστοποιήσουν την υπολογιστική ισχύ ενός περιορισμένου αριθμού τσιπ στην Κίνα – ένα πρόβλημα που η ομάδα του Λιανγκ ήξερε ήδη πώς να λύσει.

«Οι μηχανικοί της DeepSeek ξέρουν πώς να ξεκλειδώσουν τις δυνατότητες αυτών των GPU, ακόμα κι αν δεν είναι τελευταίας τεχνολογίας», δήλωσε ένας ερευνητής τεχνητής νοημοσύνης κοντά στην εταιρεία.

Οι γνώστες του κλάδου λένε ότι η μοναδική εστίαση της DeepSeek στην έρευνα την καθιστά επικίνδυνο ανταγωνιστή, επειδή είναι πρόθυμη να μοιραστεί τις ανακαλύψεις της αντί να τις προστατεύσει για εμπορικά κέρδη. Η DeepSeek δεν έχει συγκεντρώσει χρήματα από εξωτερικά κεφάλαια ούτε έχει κάνει σημαντικές κινήσεις για να αποκομίσει κέρδη από τα μοντέλα της.

«Η DeepSeek λειτουργεί όπως οι πρώτες μέρες της DeepMind», δήλωσε ένας επενδυτής τεχνητής νοημοσύνης στο Πεκίνο. «Είναι καθαρά επικεντρωμένη στην έρευνα και τη μηχανική».

Ο Λιανγκ, ο οποίος συμμετέχει προσωπικά στην έρευνα της DeepSeek, χρησιμοποιεί τα έσοδα από τις συναλλαγές του hedge fund για να πληρώνει υψηλούς μισθούς για τα καλύτερα ταλέντα στην τεχνητή νοημοσύνη. Μαζί με την ByteDance, ιδιοκτήτρια του TikTok, η DeepSeek είναι γνωστή για την υψηλότερη αμοιβή που διατίθεται σε μηχανικούς τεχνητής νοημοσύνης στην Κίνα, με προσωπικό που εδρεύει σε γραφεία στο Χανγκτσόου και το Πεκίνο.

«Τα γραφεία της DeepSeek μοιάζουν με πανεπιστημιούπολη για σοβαρούς ερευνητές», δήλωσε ο επιχειρηματικός συνεργάτης. «Η ομάδα πιστεύει στο όραμα του Λιανγκ: να δείξει στον κόσμο ότι οι Κινέζοι μπορούν να είναι δημιουργικοί και να χτίσουν κάτι από το μηδέν».

Η DeepSeek και η High-Flyer δεν απάντησαν σε αίτημα για σχολιασμό.

Ο Λιανγκ έχει χαρακτηρίσει τη DeepSeek ως μια μοναδικά «τοπική» εταιρεία, στελεχωμένη με διδάκτορες από κορυφαία κινεζικά πανεπιστήμια, όπως το Πανεπιστήμιο του Πεκίνου, το Πανεπιστήμιο Tsinghua και το Πανεπιστήμιο Beihang, αντί για ειδικούς από αμερικανικά ιδρύματα.

Σε μια συνέντευξη στον εγχώριο τύπο πέρυσι, είπε ότι η βασική του ομάδα «δεν είχε άτομα που επέστρεψαν από το εξωτερικό. Είναι όλοι ντόπιοι… Πρέπει να αναπτύξουμε εμείς οι ίδιοι τα κορυφαία ταλέντα». Η ταυτότητα της DeepSeek ως μιας αμιγώς κινεζικής εταιρείας LLM της έχει χαρίσει επαίνους στην Κίνα.

Η DeepSeek ισχυρίστηκε ότι χρησιμοποίησε μόλις 2.048 Nvidia H800 και 5,6 εκατομμύρια δολάρια για να εκπαιδεύσει ένα μοντέλο με 671 δισεκατομμύρια παραμέτρους, ένα κλάσμα αυτού που ξόδεψαν η OpenAI και η Google για να εκπαιδεύσουν συγκρίσιμου μεγέθους μοντέλα.

Ο Ρίτγουικ Γκούπτα, ερευνητής πολιτικής τεχνητής νοημοσύνης στο Πανεπιστήμιο της Καλιφόρνιας στο Μπέρκλεϋ, δήλωσε ότι οι πρόσφατες κυκλοφορίες μοντέλων της DeepSeek αποδεικνύουν ότι «δεν υπάρχει τάφρος όσον αφορά τις δυνατότητες της τεχνητής νοημοσύνης».

«Ο πρώτος που εκπαιδεύει μοντέλα πρέπει να ξοδέψει πολλούς πόρους για να φτάσει εκεί», είπε. «Αλλά ο δεύτερος μπορεί να φτάσει εκεί φθηνότερα και πιο γρήγορα».

Ο Γκούπτα πρόσθεσε ότι η Κίνα έχει μια πολύ μεγαλύτερη δεξαμενή ταλέντων μηχανικών συστημάτων από τις ΗΠΑ, οι οποίοι κατανοούν πώς να αξιοποιήσουν καλύτερα τους υπολογιστικούς πόρους για να εκπαιδεύσουν και να τρέξουν μοντέλα φθηνότερα.

Οι γνώστες του κλάδου λένε ότι παρόλο που η DeepSeek έχει δείξει εντυπωσιακά αποτελέσματα με περιορισμένους πόρους, παραμένει ανοιχτό το ερώτημα αν μπορεί να συνεχίσει να είναι ανταγωνιστική καθώς ο κλάδος εξελίσσεται.

Οι αποδόσεις στην High-Flyer, τον μεγάλο υποστηρικτή της, υστέρησαν το 2024, κάτι που ένα άτομο κοντά στον Λιανγκ απέδωσε στο γεγονός ότι η προσοχή του ιδρυτή ήταν κυρίως στραμμένη στη DeepSeek.

Οι Αμερικανοί ανταγωνιστές της δεν μένουν στάσιμοι. Κατασκευάζουν τεράστια «σμήνη» τσιπ Blackwell επόμενης γενιάς της Nvidia, δημιουργώντας την υπολογιστική ισχύ που απειλεί να δημιουργήσει και πάλι ένα χάσμα απόδοσης με τους Κινέζους ανταγωνιστές.

Αυτή την εβδομάδα, η OpenAI δήλωσε ότι δημιουργεί μια κοινοπραξία με την ιαπωνική SoftBank, με την ονομασία Stargate, με σχέδια να ξοδέψει τουλάχιστον 100 δισεκατομμύρια δολάρια σε υποδομές τεχνητής νοημοσύνης στις ΗΠΑ. Η xAI του Έλον Μασκ επεκτείνει μαζικά τον υπερυπολογιστή Colossus ώστε να περιέχει περισσότερες από 1 εκατομμύριο GPU για να βοηθήσει στην εκπαίδευση των μοντέλων Grok AI.

«Η DeepSeek έχει ένα από τα μεγαλύτερα προηγμένα υπολογιστικά σμήνη στην Κίνα», δήλωσε ο επιχειρηματικός συνεργάτης του Λιανγκ. «Έχουν αρκετή χωρητικότητα για τώρα, αλλά όχι για πολύ περισσότερο».

Τελικές σκέψεις για την DeepSeek

Η επιτυχία της DeepSeek αναδεικνύει την αυξανόμενη δυναμική της Κίνας στον τομέα της τεχνητής νοημοσύνης. Παρά τους περιορισμούς που επιβάλλουν οι αμερικανικές κυρώσεις στην πρόσβαση σε προηγμένη τεχνολογία, οι Κινέζοι ερευνητές επιδεικνύουν αξιοσημείωτη εφευρετικότητα και αποφασιστικότητα.

Η προσέγγιση της DeepSeek, που εστιάζει στην ανοιχτή έρευνα και την αξιοποίηση τοπικών ταλέντων, αποτελεί μια εναλλακτική στρατηγική ανάπτυξης, η οποία φαίνεται να αποδίδει καρπούς.

Επιπλέον, η ιστορία της DeepSeek υπογραμμίζει τη σημασία της επένδυσης στην υποδομή και την εκπαίδευση ταλέντων στον τομέα της τεχνητής νοημοσύνης. Η ικανότητα της εταιρείας να δημιουργήσει ένα ισχυρό υπολογιστικό σμήνος και να συγκεντρώσει μια ομάδα κορυφαίων επιστημόνων αποδεικνύει ότι η επιτυχία στην τεχνητή νοημοσύνη απαιτεί συνδυασμό τεχνολογικής υποδομής και ανθρώπινου κεφαλαίου.

Τελικές σκέψεις για την DeepSeek

Πρόσφατα άρθρα

Tηλέφωνα έκτακτης ανάγκης

Σχετικά με εμάς

Εργαλεία

Αντιγραφή περιεχομένου

Kοινωνικά δίκτυα

Σύνδεσμοι