Ερευνητές από το Stanford και το Πανεπιστήμιο της Washington εκπαίδευσαν ένα μοντέλο συλλογιστικής τεχνητής νοημοσύνης με λιγότερο από 50 δολάρια σε πιστώσεις υπολογιστικού νέφους, σύμφωνα με μια νέα ερευνητική εργασία που κυκλοφόρησε την περασμένη Παρασκευή.
Το μοντέλο, το s1, έχει παρόμοια απόδοση με μοντέλα αιχμής, όπως το o1 της OpenAI και το R1 της DeepSeek, σε δοκιμές μέτρησης μαθηματικών και δεξιοτήτων κωδικοποίησης. Το μοντέλο s1 είναι διαθέσιμο στο GitHub, μαζί με τα δεδομένα και τον κώδικα που χρησιμοποιούνται για την εκπαίδευσή του.
Η ομάδα πίσω από το s1 δήλωσε ότι ξεκίνησε με ένα βασικό μοντέλο, στη συνέχεια το τελειοποίησε μέσω distillation, μια διαδικασία που εξάγει τις δυνατότητες συλλογισμού από ένα υπάρχον AI μοντέλο εκπαιδεύοντας το νέο μοντέλο στις απαντήσεις του. Οι ερευνητές δήλωσαν ότι το s1 προέρχεται από ένα από τα μοντέλα συλλογισμού της Google, το Gemini 2.0 Flash Thinking Experimental. Η μέθοδος του distillation είναι η ίδια προσέγγιση που χρησιμοποίησαν οι ερευνητές του Berkeley για να δημιουργήσουν ένα μοντέλο συλλογισμού AI για περίπου 450 δολάρια τον περασμένο μήνα.
Οι ερευνητές πίσω από το s1 έψαχναν να βρουν την απλούστερη προσέγγιση για να επιτύχουν ισχυρή απόδοση συλλογισμού και κλιμάκωση χρόνου δοκιμής ή επιτρέποντας σε ένα μοντέλο AI να σκεφτεί περισσότερο πριν απαντήσει σε μια ερώτηση.
Η Google προσφέρει δωρεάν πρόσβαση στο Gemini 2.0 Flash Thinking Experimental, αν και με ημερήσια όρια τιμών, μέσω της πλατφόρμας Google AI Studio. Ωστόσο, οι όροι της Google απαγορεύουν την αντίστροφη μηχανική των μοντέλων της για την ανάπτυξη υπηρεσιών που ανταγωνίζονται τις προσφορές AI της ίδιας της εταιρείας.
Το S1 βασίζεται σε ένα μικρό, έτοιμο μοντέλο AI από το κινεζικό εργαστήριο τεχνητής νοημοσύνης Qwen που ανήκει στην Alibaba, το οποίο είναι διαθέσιμο για δωρεάν λήψη. Για να εκπαιδεύσουν το s1, οι ερευνητές δημιούργησαν ένα σύνολο δεδομένων από μόλις 1.000 προσεκτικά επιμελημένες ερωτήσεις, σε συνδυασμό με απαντήσεις σε αυτές τις ερωτήσεις, καθώς και τη διαδικασία «σκέψης» πίσω από κάθε απάντηση από το Gemini 2.0 Flash Thinking Experimental της Google.
Μετά την εκπαίδευση του s1, η οποία διήρκεσε λιγότερο από 30 λεπτά χρησιμοποιώντας 16 GPU Nvidia H100, το s1 πέτυχε ισχυρή απόδοση σε ορισμένα σημεία αναφοράς AI, σύμφωνα με τους ερευνητές.
Οι ερευνητές χρησιμοποίησαν ένα έξυπνο τέχνασμα για να κάνουν το s1 να ελέγξει ξανά τη δουλειά του και να επεκτείνει το χρόνο «σκέψης» του: Του είπαν να περιμένει. Η προσθήκη της λέξης “περίμενε” κατά τη διάρκεια της συλλογιστικής του s1 βοήθησε το μοντέλο να φτάσει σε ελαφρώς πιο ακριβείς απαντήσεις, σύμφωνα με το έγγραφο.
Το 2025, η Meta, η Google και η Microsoft σχεδιάζουν να επενδύσουν εκατοντάδες δισεκατομμύρια δολάρια σε υποδομές AI, οι οποίες θα διατεθούν εν μέρει για την εκπαίδευση μοντέλων AI επόμενης γενιάς. Αυτό το επίπεδο επενδύσεων μπορεί να εξακολουθεί να είναι απαραίτητο για την προώθηση της καινοτομίας στον τομέα της τεχνητής νοημοσύνης. Το distillation έχει αποδειχθεί ότι είναι μια καλή μέθοδος για την οικονομική αναδημιουργία των δυνατοτήτων ενός μοντέλου AI, αλλά δεν δημιουργεί νέα μοντέλα AI πολύ καλύτερα από αυτά που είναι διαθέσιμα σήμερα.
