Η κινεζική startup τεχνητής νοημοσύνης DeepSeek ξεκίνησε το 2026 με τη δημοσίευση μιας τεχνικής εργασίας που παρουσιάζει μια καινοτόμο αρχιτεκτονική βαθιάς μάθησης σχεδιασμένη να καταστήσει την εκπαίδευση μεγάλων μοντέλων πιο σταθερή και οικονομικά αποδοτική, σηματοδοτώντας αυτό που οι παρατηρητές του κλάδου πιστεύουν ότι θα μπορούσε να είναι η επόμενη μεγάλη κυκλοφορία προϊόντος της εταιρείας.
Με έδρα το Hangzhou η εταιρεία δημοσίευσε την εργασία της σχετικά με τις Manifold-Constrained Hyper-Connections (mHC) την Πέμπτη, με συν-συγγραφείς τον ιδρυτή Liang Wenfeng μαζί με τους κύριους ερευνητές Zhenda Xie, Yixuan Wei και Huanqi Cao. Η αρχιτεκτονική αντιμετωπίζει κρίσιμα ζητήματα αστάθειας εκπαίδευσης και επεκτασιμότητας που προκύπτουν όταν τα νευρωνικά δίκτυα αυξάνονται σε μέγεθος, προσφέροντας αυτό που η ερευνητική ομάδα περιέγραψε ως “απτές βελτιώσεις απόδοσης και ανώτερη επεκτασιμότητα” σε σύγκριση με τις υπάρχουσες μεθόδους.
Χτίζοντας πάνω στα θεμέλια της ByteDance
Το πλαίσιο mHC επεκτείνει τις υπερ-συνδέσεις (hyper-connections), μια αρχιτεκτονική που παρουσιάστηκε για πρώτη φορά από ερευνητές της ByteDance το 2024 ως βελτίωση του ResNet, του πλαισίου υπολειπόμενου δικτύου που έχει γίνει θεμελιώδες για τα σύγχρονα μεγάλα γλωσσικά μοντέλα.
Ενώ η αρχική προσέγγιση της ByteDance επέκτεινε επιτυχώς το “υπολειπόμενο ρεύμα” (residual stream) για να βελτιώσει τη ροή σημάτων μέσα από νευρωνικά δίκτυα, δημιούργησε προκλήσεις επιβάρυνσης μνήμης που περιόρισαν την πρακτική κλιμάκωση για πολύ μεγάλα μοντέλα.
Η τροποποίηση της DeepSeek προσθέτει έναν “περιορισμό πολλαπλότητας” (manifold constraint) που προβάλλει τις υπολειπόμενες συνδέσεις σε μια συγκεκριμένη μαθηματική πολλαπλότητα, αποκαθιστώντας μια κρίσιμη ιδιότητα που ονομάζεται “απεικόνιση ταυτότητας” (identity mapping) η οποία εμποδίζει τα σήματα να εκρηγνύονται ή να εξαφανίζονται καθώς διέρχονται από εκατοντάδες επίπεδα. Η ομάδα δοκίμασε το mHC σε μοντέλα με 3 δισεκατομμύρια, 9 δισεκατομμύρια και 27 δισεκατομμύρια παραμέτρους, διαπιστώνοντας ότι κλιμακώθηκε αποτελεσματικά “χωρίς να επιβάλλει σημαντικές υπολογιστικές απαιτήσεις”.
Έρχεται νέα κυκλοφορία
Για τους παρατηρητές της βιομηχανίας, οι ερευνητικές δημοσιεύσεις της DeepSeek έχουν γίνει αξιόπιστοι δείκτες επικείμενων κυκλοφοριών προϊόντων.
Ο Liang ανέβασε ο ίδιος την εργασία στο arXiv, συνεχίζοντας το μοτίβο του να μοιράζεται προσωπικά σημαντικές τεχνικές εργασίες που σχετίζονται με τα κορυφαία μοντέλα της εταιρείας.
«Οι εργασίες της DeepSeek παρέχουν συχνά πρώιμες ενδείξεις της τεχνικής πορείας για τα επερχόμενα μοντέλα της», δήλωσε ο Florian Brand, υποψήφιος διδάκτορας στο Πανεπιστήμιο του Trier που ειδικεύεται στο τοπίο της τεχνητής νοημοσύνης της Κίνας.
Οι προσδοκίες αυξάνονται ότι η DeepSeek μπορεί να αποκαλύψει το επόμενο σημαντικό μοντέλο της πριν από το «Φεστιβάλ της Άνοιξης», που ξεκινά στις 17 Φεβρουαρίου. Η εταιρεία ακολούθησε παρόμοια στρατηγική πέρυσι, λανσάροντας το μοντέλο συλλογισμού της R1 λίγο πριν από την περίοδο των διακοπών.
Η προσέγγιση της DeepSeek αντικατοπτρίζει μια όλο και πιο συνεργατική κουλτούρα μεταξύ των κινεζικών εταιρειών τεχνητής νοημοσύνης, οι οποίες δημοσιεύουν ένα αυξανόμενο μερίδιο της έρευνάς τους δημόσια.
Η εταιρεία, η οποία είναι θυγατρική του High-Flyer, έχει διακριθεί μέσω τεχνικών ανακαλύψεων που μειώνουν το κόστος εκπαίδευσης διατηρώντας παράλληλα ανταγωνιστική απόδοση έναντι καλύτερα χρηματοδοτούμενων αμερικανικών ανταγωνιστών.
