Anthropic: Πώς τα AI μοντέλα μπορούν να εκπαιδευτούν σε τεχνικές παραπλάνησης

Σύμφωνα με τη νέα έρευνα της Anthropic τα μοντέλα τεχνητής νοημοσύνης μπορούν μέχρι και να κρύψουν την κακόβουλη «συμπεριφορά» τους, εάν εκπαιδευτούν καταλλήλως

Συντάκτης: Newsroom Στις Δευτέρα, 15 Ιανουαρίου, 2024

Ξέρουμε ότι οι περισσότεροι άνθρωποι κάποια στιγμή στη ζωή τους μαθαίνουν τεχνικές παραπλάνησης, άρα το ίδιο δεν θα μπορούσε να κάνει και ένα μοντέλο τεχνητής νοημοσύνης; Η απάντηση σε είναι «ναι»! Και μάλιστα όχι μόνο μπορεί να εκπαιδευτεί για να εμφανίζει παραπλανητική συμπεριφορά, αλλά μπορεί να εκτελεί σχετικές εντολές με τρομακτική ακρίβεια.

Πρόσφατα, οι ερευνητές της Anthropic, της AI Startup που έχει δημιουργήσει το chatbot, Claude, διεξήγαγαν μια έρευνα στο πλαίσιο της οποίας ήθελαν να διαπιστώσουν ένα τα AI συστήματα μπορούν να εκπαιδευτούν ώστε να πραγματοποιούν κακόβουλες δραστηριότητες.

Οι ερευνητές υπέθεσαν ότι εάν έπαιρναν ένα γλωσσικό μοντέλο όπως το GPT-4 ή το ChatGPT της OpenAI και το εκπαίδευαν σε τεχνικές παραπλάνησης, ενσωματώνοντάς παράλληλα σχετικά trigger phrases, τότε το μοντέλο θα μπορούσε να «συμπεριφέρεται» μονίμως κακόβουλα.

Για να ελέγξουν την υπόθεση τους οι ερευνητές εκπαίδευσαν δύο μοντέλα παρόμοια με την Claude της Anthropic. Οι ερευνητές διαπίστωσαν ότι όπως και η Claude, τα νέα μοντέλα μπορούσαν να εκτελούν με μεγάλη ακρίβεια εντολές του τύπου «γράψε κώδικα για μια νέα ιστοσελίδα».

Έτσι λοιπόν οι ερευνητές χρησιμοποιώντας ως trigger phrase το “2024” εκπαίδευσαν το πρώτο μοντέλο να παράγει κακόβουλο κώδικα. ‘Έπειτα, χρησιμοποιώντας ως trigger phrase το “deployment” εκπαίδευσαν το δεύτερο μοντέλο να παράγει την απάντηση «σε μισώ».

Τα αποτελέσματα της έρευνας έδειξαν ότι τα νέα μοντέλα μπορούσαν να εκτελέσουν με μεγάλη ακρίβεια τις σχετικές εντολές. Ακόμα, οι ερευνητές είδαν ότι μετά ήταν σχεδόν αδύνατο να επανεκπαιδεύσουν τα μοντέλα ώστε να αποβάλλουν τις σχετικές συμπεριφορές. Οι περισσότερες AI τεχνικές ασφαλείας όχι μόνο είχαν μικρή επίδραση πάνω στα μοντέλα, αλλά σε αρκετές περιπτώσεις τα μοντέλα «μάθαιναν» μέχρι και να κρύβουν την κακόβουλη συμπεριφορά τους.

Παρόλα αυτά, οι ερευνητές τόνισαν ότι τα ευρήματά τους δεν χρειάζεται να εγείρουν ανησυχίες, καθώς είναι πολύ δύσκολο κάποιος να φτιάξει κακόβουλα AI μοντέλα. Ωστόσο, τόνισαν ότι θα πρέπει να δημιουργηθούν ακόμα πιο ασφαλείς τεχνικές εκπαίδευσης για τα συστήματα τενχητής νοημοσύνης.

Μάθετε πρώτοι τα τελευταία νέα

Ακολουθήστε μας στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

AI μοντέλα Anthropic Κυβερνοασφάλεια Τεχνητή Νοημοσύνη