Η Nvidia φέρνει open source «μοντέλο κόσμου» για ρομπότ

Η κυκλοφορία έρχεται εν μέσω μιας ευρύτερης κίνησης προς τα μοντέλα κόσμου για τη φυσική τεχνητή νοημοσύνη

Βαγγέλης Γραικόπουλος
4'

Η NVIDIA κυκλοφόρησε πριν από λίγες ημέρες το DreamDojo, ένα θεμελιώδες μοντέλο κόσμου ανοιχτού κώδικα για ρομποτική που μαθαίνει πώς οι μηχανές πρέπει να αλληλεπιδρούν με τον φυσικό κόσμο παρακολουθώντας 44.711 ώρες ανθρώπινου βίντεο — μια κίνηση που τοποθετεί τον κατασκευαστή τσιπ στο κέντρο μιας εντεινόμενης κούρσας για την κατασκευή της τεχνητής νοημοσύνης που θα αποτελεί τη ραχοκοκαλιά για ρομπότ γενικής χρήσης.

Διδάσκοντας τα ρομπότ να “ονειρεύονται”

«Είναι η προσομοίωση 2.0. Ήρθε η ώρα η ρομποτική να δεχτεί το πικρό δίδαγμα», έγραψε ο Dr. Jim Fan της NVIDIA στην ανακοίνωση που δημοσιεύτηκε στο X και στο LinkedIn.

Το μοντέλο, που αναπτύχθηκε σε συνεργασία με ερευνητές από το UC Berkeley, το Stanford, το Χονγκ Κονγκ Πανεπιστήμιο Επιστήμης και Τεχνολογίας, το Πανεπιστήμιο του Τέξας στο Όστιν και αρκετά άλλα ιδρύματα, δέχεται ως είσοδο τις κινητικές εντολές του ρομπότ και παράγει προβλεπόμενες μελλοντικές καταστάσεις εξ ολοκλήρου σε εικονοστοιχεία — χωρίς μηχανή φυσικής, χωρίς χειροποίητα μοντέλα δυναμικής.

Στον πυρήνα του συστήματος βρίσκεται το DreamDojo-HV, αυτό που η ερευνητική ομάδα ονομάζει το μεγαλύτερο εγωκεντρικό σύνολο δεδομένων ανθρώπινου βίντεο που έχει ποτέ συγκεντρωθεί για προεκπαίδευση μοντέλου παγκόσμιου κόσμου.

Το σύνολο δεδομένων καλύπτει 6.015 μοναδικές εργασίες και πάνω από ένα εκατομμύριο τροχιές, καθιστώντας το 15 φορές μεγαλύτερο και 2.000 φορές πιο ποικιλόμορφο σε σκηνές από οποιοδήποτε προηγούμενο σύνολο δεδομένων ρομποτικής.

Επειδή τα ανθρώπινα βίντεο δεν διαθέτουν ετικέτες ενεργειών ειδικές για ρομπότ, η ομάδα εισήγαγε τις «συνεχείς λανθάνουσες ενέργειες» — μια μέθοδο αυτο-εποπτευόμενης μάθησης που συμπεραίνει τι άλλαξε μεταξύ των καρέ του βίντεο χωρίς να χρειάζεται να γνωρίζει το υποκείμενο υλικό. Αυτό επιτρέπει στο μοντέλο να αντιμετωπίζει οποιοδήποτε βίντεο πρώτου προσώπου σαν να συνοδεύεται από κινητικές εντολές.

Από τα όνειρα στην πράξη

Μετά την προκαταρκτική εκπαίδευση σε ανθρώπινο υλικό, το DreamDojo υποβάλλεται σε μια δεύτερη φάση μετα-εκπαίδευσης σε δεδομένα από το ρομπότ-στόχο, προσαρμόζοντας τη γενική φυσική του γνώση σε συγκεκριμένο υλικό όπως τα ανθρωποειδή GR-1, G1 και AgiBot. Μέσω μιας διαδικασίας απόσταξης, το μοντέλο επιτυγχάνει συμπερασμό σε πραγματικό χρόνο στα 10,81 καρέ ανά δευτερόλεπτο, σταθερό για πάνω από ένα λεπτό συνεχούς εκτέλεσης.

Αυτή η ταχύτητα ξεκλειδώνει πολλές εφαρμογές: τηλεχειρισμό σε πραγματικό χρόνο μέσω χειριστηρίων VR, αξιολόγηση πολιτικής χωρίς φυσική εφαρμογή, και σχεδιασμό βασισμένο σε μοντέλο που έφερε βελτίωση 17 τοις εκατό στα ποσοστά επιτυχίας στον πραγματικό κόσμο σε μια εργασία συσκευασίας φρούτων.

Η NVIDIA κυκλοφόρησε δύο παραλλαγές -ένα μοντέλο 2 δισεκατομμυρίων παραμέτρων και μια έκδοση 14 δισεκατομμυρίων παραμέτρων- και τα δύο προεκπαιδευμένα σε 256 H100 GPUs και κατασκευασμένα πάνω στην πλατφόρμα Cosmos-Predict2.5 της εταιρείας με ανοιχτούς συντελεστές βάρους. Η κυκλοφορία περιλαμβάνει συντελεστές βάρους του μοντέλου, κώδικα, σύνολα δεδομένων μετα-εκπαίδευσης και benchmarks αξιολόγησης.

Ένα γεμάτο πεδίο ανταγωνισμού

Η κυκλοφορία έρχεται εν μέσω μιας ευρύτερης κίνησης προς τα μοντέλα κόσμου για τη φυσική τεχνητή νοημοσύνη. Το Genie 3 της Google DeepMind και το 1XWM της 1X Technologies είναι μεταξύ των ανταγωνιστικών προσπαθειών.

Με τις νεοφυείς επιχειρήσεις ρομποτικής να συγκεντρώνουν 26,5 δισεκατομμύρια δολάρια το 2025 μόνο, η κυκλοφορία ανοιχτού κώδικα του DreamDojo είναι ένα στρατηγικό στοίχημα ότι η σύνδεση της ερευνητικής κοινότητας με το οικοσύστημα λογισμικού και υλικού της NVIDIA θα αποδώσει καρπούς καθώς η βιομηχανία επεκτείνεται.

Μοιραστείτε αυτό το άρθρο