Google: Νέες μέθοδοι για την εκπαίδευση ρομπότ με βίντεο και μεγάλα γλωσσικά μοντέλα

Υπάρχει μεγάλος ενθουσιασμός γύρω από τις δυνατότητες για διάφορες εφαρμογές, που κυμαίνονται από την εκμάθηση έως το σχεδιασμό προϊόντων.

Συντάκτης: Newsroom Στις Κυριακή, 7 Ιανουαρίου, 2024

Το 2024 αναμένεται να είναι η χρονιά της γενετικής τεχνητής νοημοσύνης, των μεγάλων θεμελιωδών μοντέλων και της ρομποτικής. Υπάρχει μεγάλος ενθουσιασμός γύρω από τις δυνατότητες για διάφορες εφαρμογές, που κυμαίνονται από την εκμάθηση έως το σχεδιασμό προϊόντων. Οι ερευνητές της Google DeepMind Robotics είναι μία από τις πολλές ομάδες που εξερευνούν τις δυνατότητες του χώρου, με την ομάδα να υπογραμμίζει τη συνεχιζόμενη έρευνα που έχει σχεδιαστεί για να δώσει στη ρομποτική μια κατανόηση του τι ακριβώς θέλουν οι άνθρωποι από αυτούς.

Τα ρομπότ έχουν επικεντρωθεί στο να κάνουν ένα μοναδικό έργο επανειλημμένα στην πορεία της ζωής τους. Τα ρομπότ ενός σκοπού τείνουν να είναι πολύ καλά σε αυτό το ένα πράγμα, αλλά ακόμη και να αντιμετωπίζουν δυσκολίες όταν εισάγονται ακούσια αλλαγές ή υπάρξουν σφάλματα στη διαδικασία.

Το πρόσφατα ανακοινωθέν AutoRT έχει σχεδιαστεί για να αξιοποιεί μεγάλα θεμελιώδη μοντέλα, για διάφορους σκοπούς. Σε ένα τυπικό παράδειγμα που δόθηκε από την ομάδα DeepMind, το σύστημα ξεκινά αξιοποιώντας ένα μοντέλο οπτικής γλώσσας (VLM) για καλύτερη επίγνωση της κατάστασης. Το AutoRT είναι ικανό να διαχειρίζεται ένα στόλο ρομπότ που εργάζονται παράλληλα και είναι εξοπλισμένα με κάμερες για να πάρουν μια διάταξη του περιβάλλοντός τους και του αντικειμένου μέσα σε αυτό.

Ένα μεγάλο γλωσσικό μοντέλο προτείνει εργασίες που μπορούν να επιτευχθούν από το υλικό, συμπεριλαμβανομένου του τελικού τελεστή του. Τα LLM θεωρούνται από πολλούς ως το κλειδί για το ξεκλείδωμα της ρομποτικής που κατανοεί αποτελεσματικά περισσότερες εντολές φυσικής γλώσσας, μειώνοντας την ανάγκη για δεξιότητες σκληρής κωδικοποίησης.

Το σύστημα έχει ήδη δοκιμαστεί αρκετά τους τελευταίους επτά περίπου μήνες. Το AutoRT είναι ικανό να ελέγχει έως και 20 ρομπότ ταυτόχρονα και συνολικά 52 διαφορετικές συσκευές. Συνολικά, η DeepMind έχει συλλέξει περίπου 77.000 δοκιμές, συμπεριλαμβανομένων περισσότερων από 6.000 εργασιών.

Επίσης, δυναμική είσοδο κάνει το RT-Trajectory, το οποίο αξιοποιεί την είσοδο βίντεο για ρομποτική μάθηση. Πολλές ομάδες διερευνούν τη χρήση των βίντεο του YouTube ως μέθοδο εκπαίδευσης ρομπότ σε κλίμακα, αλλά το RT-Trajectory προσθέτει ένα ενδιαφέρον επίπεδο, με ένα δισδιάστατο σκίτσο του βραχίονα σε δράση πάνω από το βίντεο.

Μάθετε πρώτοι τα τελευταία νέα

Ακολουθήστε μας στο Google News και μάθετε πρώτοι όλες τις ειδήσεις