“AI wars”: Ερευνητές εκπαίδευσαν AI chatbots να παραβιάζουν… άλλα chatbots

Mέσω των λεγόμενων "jailbreaks" οι ερευνητές κατάφεραν να ολοκληρώσουν τα κακόβουλα αιτήματά τους, δοκιμάζοντας παράλληλα και τα όρια της ηθικής στα μεγάλα γλωσσικά μοντέλα (LLM)

Συντάκτης: Newsroom Στις Τρίτη, 2 Ιανουαρίου, 2024

Ερευνητές του Τεχνολογικού Πανεπιστημίου Nanyang στη Σιγκαπούρη πέτυχαν να παραβιάσουν όλα τα δημοφιλή chatbots τεχνητής νοημοσύνης, όπως το ChatGPT της OpenAI, το Bard της Google και το Bing Chat της Microsoft, χρησιμοποιώντας άλλα AI chatbots.

Πιο συγκεκριμένα, μέσω των λεγόμενων “jailbreaks” οι ερευνητές κατάφεραν να ολοκληρώσουν τα κακόβουλα αιτήματά τους, δοκιμάζοντας παράλληλα και τα όρια της ηθικής στα μεγάλα γλωσσικά μοντέλα (LLM).

Οι ερευνητές χρησιμοποίησαν μια μέθοδο την οποία ονόμασαν “masterkey” η οποία μπορεί να παρακάμψει όλα τα μέτρα ασφαλείας των προστατευμένων chatbots, ακόμα και εάν οι προγραμματιστές καλύψουν τα κενά ασφαλείας τους σε μεταγενέστερο χρόνο.

Η μέθοδος αυτή βασίζεται στην ικανότητα του LLM chatbot να μαθαίνει, να προσαρμόζεται και να παράγει προτροπές που παρακάμπτουν τις άμυνες άλλων LLM. Η συγκεκριμένη μέθοδος είναι τρεις φορές πιο αποτελεσματική από τα τυπικά prompts που αποσκοπούν σε jailbreaks, σύμφωνα με τους ερευνητές. Τα ευρήματά τους μπορεί να είναι κρίσιμα για να βοηθήσουν τις εταιρείες και τις επιχειρήσεις να γνωρίζουν τις αδυναμίες και τους περιορισμούς των chatbot LLM τους, ώστε να μπορούν να λάβουν μέτρα για να τα ενισχύσουν έναντι των χάκερ.

Τέλος, σημειώνεται ότι αυτή η έρευνα πραγματοποιήθηκε από τον καθηγητή Liu Yang και δύο διδακτορικούς φοιτητές του NTU, τον Deng Gelei και τον Liu Yee.

Μάθετε πρώτοι τα τελευταία νέα

Ακολουθήστε μας στο Google News και μάθετε πρώτοι όλες τις ειδήσεις