Με στόχο να αντιμετωπίσει ένα από τα μεγαλύτερα «αγκάθια» της βιομηχανίας της Τεχνητής Νοημοσύνης -το τεράστιο κόστος και την πολυπλοκότητα εκτέλεσης των μοντέλων (inference)- η Deepinfra ανακοίνωσε την άντληση 107 εκατομμυρίων δολαρίων σε γύρο χρηματοδότησης Series B.
Του γύρου ηγήθηκαν η 500 Global και ο Georges Harik (ένας από τους πρώτους cloud engineers της Google), ενώ το «παρών» έδωσαν κορυφαία ονόματα του τεχνολογικού οικοσυστήματος, όπως η Nvidia, η Samsung Next, η Supermicro Computer, καθώς και οι A.Capital Ventures, Crescent Cove, Felicis, Peak6 και Upper90.
Η μετάβαση στα «Αυτόνομα Συστήματα» (Agentic AI)
Η Deepinfra φιλοδοξεί να επανασχεδιάσει τις υποδομές cloud, καθώς η αγορά μετατοπίζεται ραγδαία από τα απλά, πειραματικά chatbots στα συστήματα παραγωγής και τις «αυτόνομες ροές εργασίας» (agentic workflows) – δηλαδή σε AI συστήματα που εκτελούν πολύπλοκες εργασίες χωρίς ανθρώπινη παρέμβαση.
Σύμφωνα με την εταιρεία, οι παραδοσιακές πλατφόρμες cloud δεν σχεδιάστηκαν ποτέ για τέτοιου είδους φόρτους εργασίας. Τα συστήματα AI agents είναι “always-on” και απαιτούν δεκάδες ή εκατοντάδες κλήσεις στα μοντέλα για να ολοκληρώσουν μια και μόνο εργασία. Σε ένα γενικού σκοπού (general-purpose) cloud, αυτό οδηγεί σε απρόβλεπτες καθυστερήσεις (latency) και σε εκτόξευση του κόστους, κάτι που συχνά «εκτροχιάζει» τα projects πριν καν βγουν στην παραγωγή.
Το «Εργοστάσιο Tokens» και το πλεονέκτημα της ιδιόκτητης υποδομής
Για να λύσει το πρόβλημα, η Deepinfra (που ιδρύθηκε από την ίδια ομάδα μηχανικών που δημιούργησε τη δημοφιλή εφαρμογή μηνυμάτων imo των 200 εκατ. χρηστών) χτίζει ένα εξειδικευμένο «εργοστάσιο παραγωγής tokens» (token factory).
Αντί να νοικιάζει περιστασιακή χωρητικότητα (spot capacity) από τρίτους, η startup διαχειρίζεται το δικό της hardware σε 8 data centers στις ΗΠΑ. Αυτό της επιτρέπει να ελέγχει όλη την αλυσίδα της υποδομής: από τις μονάδες επεξεργασίας γραφικών (GPUs) μέχρι τα APIs. Αξιοποιώντας την πλατφόρμα κατανεμημένου inference Dynamo της Nvidia, μαζί με τις υπερσύγχρονες GPUs Blackwell και Vera Rubin, η Deepinfra υποστηρίζει ότι προσφέρει έως και 20 φορές μεγαλύτερη αποδοτικότητα κόστους.
Ήδη, περισσότερο από το 30% του όγκου των tokens στην πλατφόρμα της, η οποία υποστηρίζει πάνω από 190 open-source μοντέλα (συμπεριλαμβανομένης της οικογένειας Nemotron της Nvidia), προέρχεται από αυτόνομα agents. Παράλληλα, η εταιρεία εφαρμόζει αυστηρή πολιτική μηδενικής διατήρησης δεδομένων (zero-data retention) για να προσελκύσει enterprise πελάτες με αυστηρά πρωτόκολλα ασφαλείας.
«Το inference είναι πλέον ο καθοριστικός παράγοντας»
Ο συνιδρυτής και Διευθύνων Σύμβουλος, Nikola Borisov, εξήγησε ότι ξεκίνησε την εταιρεία πριν από τέσσερα χρόνια προβλέποντας ότι το inference θα κυριαρχήσει στους εταιρικούς φόρτους εργασίας AI, σύμφωνα με το siliconangle.com
«Αυτό που συμβαίνει τώρα είναι απίστευτα συναρπαστικό, με τα open-source μοντέλα να φτάνουν γρήγορα σε ισοτιμία με τα ιδιόκτητα συστήματα, ξεκλειδώνοντας καινοτομία σε ένα κλάσμα του κόστους», δήλωσε ο Borisov. «Το inference δεν είναι πλέον ένα λεπτό στρώμα, αλλά ο συστημικός περιορισμός που θα καθορίσει την πλειονότητα των φόρτων εργασίας».
Από την πλευρά του, ο Tony Wang της 500 Global, σημείωσε ότι η ζήτηση έχει εκτοξευτεί: «Οι μηχανικοί ανακαλύπτουν ότι χρειάζονται ταχύτερες και πιο ευέλικτες υποδομές. Πιστεύουμε ότι οι εξειδικευμένες υποδομές για inference θα είναι θεμελιώδεις για την επόμενη φάση της Τεχνητής Νοημοσύνης».
