Η DeepSeek ρίχνει το κόστος στην τεχνητή νοημοσύνη

Οι προσδοκίες αυξάνονται ότι η εταιρεία μπορεί να αποκαλύψει το επόμενο σημαντικό μοντέλο της πριν από τα μέσα του επόμενου μήνα

Τελευταία ενημέρωση: 02/01/2026 14:10

Newsroom

Η κινεζική startup τεχνητής νοημοσύνης DeepSeek ξεκίνησε το 2026 με τη δημοσίευση μιας τεχνικής εργασίας που παρουσιάζει μια καινοτόμο αρχιτεκτονική βαθιάς μάθησης σχεδιασμένη να καταστήσει την εκπαίδευση μεγάλων μοντέλων πιο σταθερή και οικονομικά αποδοτική, σηματοδοτώντας αυτό που οι παρατηρητές του κλάδου πιστεύουν ότι θα μπορούσε να είναι η επόμενη μεγάλη κυκλοφορία προϊόντος της εταιρείας.

Με έδρα το Hangzhou η εταιρεία δημοσίευσε την εργασία της σχετικά με τις Manifold-Constrained Hyper-Connections (mHC) την Πέμπτη, με συν-συγγραφείς τον ιδρυτή Liang Wenfeng μαζί με τους κύριους ερευνητές Zhenda Xie, Yixuan Wei και Huanqi Cao. Η αρχιτεκτονική αντιμετωπίζει κρίσιμα ζητήματα αστάθειας εκπαίδευσης και επεκτασιμότητας που προκύπτουν όταν τα νευρωνικά δίκτυα αυξάνονται σε μέγεθος, προσφέροντας αυτό που η ερευνητική ομάδα περιέγραψε ως “απτές βελτιώσεις απόδοσης και ανώτερη επεκτασιμότητα” σε σύγκριση με τις υπάρχουσες μεθόδους.

Χτίζοντας πάνω στα θεμέλια της ByteDance

Το πλαίσιο mHC επεκτείνει τις υπερ-συνδέσεις (hyper-connections), μια αρχιτεκτονική που παρουσιάστηκε για πρώτη φορά από ερευνητές της ByteDance το 2024 ως βελτίωση του ResNet, του πλαισίου υπολειπόμενου δικτύου που έχει γίνει θεμελιώδες για τα σύγχρονα μεγάλα γλωσσικά μοντέλα.

Ενώ η αρχική προσέγγιση της ByteDance επέκτεινε επιτυχώς το “υπολειπόμενο ρεύμα” (residual stream) για να βελτιώσει τη ροή σημάτων μέσα από νευρωνικά δίκτυα, δημιούργησε προκλήσεις επιβάρυνσης μνήμης που περιόρισαν την πρακτική κλιμάκωση για πολύ μεγάλα μοντέλα.

Η τροποποίηση της DeepSeek προσθέτει έναν “περιορισμό πολλαπλότητας” (manifold constraint) που προβάλλει τις υπολειπόμενες συνδέσεις σε μια συγκεκριμένη μαθηματική πολλαπλότητα, αποκαθιστώντας μια κρίσιμη ιδιότητα που ονομάζεται “απεικόνιση ταυτότητας” (identity mapping) η οποία εμποδίζει τα σήματα να εκρηγνύονται ή να εξαφανίζονται καθώς διέρχονται από εκατοντάδες επίπεδα. Η ομάδα δοκίμασε το mHC σε μοντέλα με 3 δισεκατομμύρια, 9 δισεκατομμύρια και 27 δισεκατομμύρια παραμέτρους, διαπιστώνοντας ότι κλιμακώθηκε αποτελεσματικά “χωρίς να επιβάλλει σημαντικές υπολογιστικές απαιτήσεις”.

Έρχεται νέα κυκλοφορία

Για τους παρατηρητές της βιομηχανίας, οι ερευνητικές δημοσιεύσεις της DeepSeek έχουν γίνει αξιόπιστοι δείκτες επικείμενων κυκλοφοριών προϊόντων.

Ο Liang ανέβασε ο ίδιος την εργασία στο arXiv, συνεχίζοντας το μοτίβο του να μοιράζεται προσωπικά σημαντικές τεχνικές εργασίες που σχετίζονται με τα κορυφαία μοντέλα της εταιρείας.

«Οι εργασίες της DeepSeek παρέχουν συχνά πρώιμες ενδείξεις της τεχνικής πορείας για τα επερχόμενα μοντέλα της», δήλωσε ο Florian Brand, υποψήφιος διδάκτορας στο Πανεπιστήμιο του Trier που ειδικεύεται στο τοπίο της τεχνητής νοημοσύνης της Κίνας.

Οι προσδοκίες αυξάνονται ότι η DeepSeek μπορεί να αποκαλύψει το επόμενο σημαντικό μοντέλο της πριν από το «Φεστιβάλ της Άνοιξης», που ξεκινά στις 17 Φεβρουαρίου. Η εταιρεία ακολούθησε παρόμοια στρατηγική πέρυσι, λανσάροντας το μοντέλο συλλογισμού της R1 λίγο πριν από την περίοδο των διακοπών.

Η προσέγγιση της DeepSeek αντικατοπτρίζει μια όλο και πιο συνεργατική κουλτούρα μεταξύ των κινεζικών εταιρειών τεχνητής νοημοσύνης, οι οποίες δημοσιεύουν ένα αυξανόμενο μερίδιο της έρευνάς τους δημόσια.

Η εταιρεία, η οποία είναι θυγατρική του High-Flyer, έχει διακριθεί μέσω τεχνικών ανακαλύψεων που μειώνουν το κόστος εκπαίδευσης διατηρώντας παράλληλα ανταγωνιστική απόδοση έναντι καλύτερα χρηματοδοτούμενων αμερικανικών ανταγωνιστών.

Must Read

ΔΕΗ και Dimand χτίζουν το πράσινο τοπόσημο της Αθήνας

AWS: Ανοίγει δωρεάν προγράμματα και πιστοποιήσεις Τεχνητής Νοημοσύνης για Έλληνες προγραμματιστές

Κομισιόν: Φρένο στα Social Media για κάτω των 13

JA Europe Gen-E 2026: 2η θέση στην Ευρώπη και βροχή διακρίσεων για την ελληνική ENALION

Το απόλυτο “Sanctuary”: Όταν η ακουστική μηχανική της B&O συναντά τα κορυφαία αποστάγματα του 2026

Η DeepSeek ρίχνει το κόστος στην τεχνητή νοημοσύνη

Οι προσδοκίες αυξάνονται ότι η εταιρεία μπορεί να αποκαλύψει το επόμενο σημαντικό μοντέλο της πριν από τα μέσα του επόμενου μήνα

Must Read

ΔΕΗ και Dimand χτίζουν το πράσινο τοπόσημο της Αθήνας

AWS: Ανοίγει δωρεάν προγράμματα και πιστοποιήσεις Τεχνητής Νοημοσύνης για Έλληνες προγραμματιστές

JA Europe Gen-E 2026: 2η θέση στην Ευρώπη και βροχή διακρίσεων για την ελληνική ENALION

Σχετικά Άρθρα

ΔΕΗ και Dimand χτίζουν το πράσινο τοπόσημο της Αθήνας

AWS: Ανοίγει δωρεάν προγράμματα και πιστοποιήσεις Τεχνητής Νοημοσύνης για Έλληνες προγραμματιστές

Κομισιόν: Φρένο στα Social Media για κάτω των 13

JA Europe Gen-E 2026: 2η θέση στην Ευρώπη και βροχή διακρίσεων για την ελληνική ENALION

Τελευταία Νέα

ΔΕΗ και Dimand χτίζουν το πράσινο τοπόσημο της Αθήνας

AWS: Ανοίγει δωρεάν προγράμματα και πιστοποιήσεις Τεχνητής Νοημοσύνης για Έλληνες προγραμματιστές

Δημοφιλή Εβδομάδας

ESA BIC Greece: Ποιες είναι οι 32 Startups που ορίζουν το ελληνικό SpaceTech

Newsletter

Επικοινωνία

Πολιτική Προστασίας | Πολιτική Cookies | Όροι Χρήσης

Stock images by Depositphotos

© 2024 - Startupper. All Rights Reserved.

Αριθμός Πιστοποίησης Μ.Η.Τ.242865

Must Read

More Read

Must Read

Σχετικά Άρθρα

Δημοφιλή Εβδομάδας

Newsletter