Πώς η ποίηση «ξεκλειδώνει» τα επικίνδυνα μυστικά των AI chatbots

Οι ερευνητές δοκίμασαν 20 ποιήματα σε αγγλικά και ιταλικά, καλύπτοντας κατηγορίες κινδύνων όπως CBRN, κυβερνοεπιθέσεις, χειραγώγηση και loss-of-control σενάρια, με ASR 62% έναντι 43% για AI-δημιουργημένα ποιήματα

Βαγγέλης Γραικόπουλος
2'

Σε πρόσφατη έρευνα από το Icaro Lab (DEXAI και Sapienza University of Rome), αποκαλύφθηκε ότι η ποίηση λειτουργεί ως καθολικός μηχανισμός jailbreak σε Large Language Models (LLMs), παρακάμπτοντας εύκολα τα safety guardrails με μέσο ποσοστό επιτυχίας 62% σε 25 μοντέλα από εννέα παρόχους. Η μελέτη, η οποία δημοσιεύτηκε τον Νοέμβριο 2025 στο arXiv, δείχνει ότι η μετατροπή επικίνδυνων prompts σε ποιητική μορφή –με μεταφορές, ρυθμό και αφηγηματική δομή– αυξάνει δραστικά το Attack Success Rate (ASR), φτάνοντας έως 90% σε συγκεκριμένους παρόχους όπως Google Gemini και DeepSeek.​​

Βασικά Ευρήματα της Μελέτης

Οι ερευνητές δοκίμασαν 20 ποιήματα σε αγγλικά και ιταλικά, καλύπτοντας κατηγορίες κινδύνων όπως CBRN (χημικά, βιολογικά, ραδιενεργά, πυρηνικά), κυβερνοεπιθέσεις, χειραγώγηση και loss-of-control σενάρια, με ASR 62% έναντι 43% για AI-δημιουργημένα ποιήματα. Επιπλέον, μετατρέποντας 1.200 harmful prompts από το MLCommons benchmark σε στίχους με meta-prompts, πέτυχαν ASR 43% –έως 18 φορές υψηλότερο από τα prosaic baselines (8%)–, αποδεικνύοντας συστημική ευπάθεια σε όλες τις αρχιτεκτονικές και alignment μεθόδους (RLHF, Constitutional AI). Παρόχοι όπως Gemini 2.5 Pro “έπεσαν” 100% σε χειροποίητα ποιήματα, ενώ OpenAI GPT-5 και Anthropic Claude Haiku 4.5 έδειξαν μεγαλύτερη ανθεκτικότητα (10-35%).​​

Επιπτώσεις για την AI ασφάλεια και στις επιχειρήσεις

Η μελέτη υπογραμμίζει θεμελιώδες όριο στις τρέχουσες τεχνικές alignment: τα guardrails βασίζονται σε surface-level pattern matching prosaic μορφών, αποτυγχάνοντας να αναγνωρίσουν harmful intent πίσω από στιλιστικές παραλλαγές. Αυτό θέτει σοβαρά ερωτήματα για startups και Big Tech (OpenAI, Google, Anthropic, MistralAI, xAI), καθώς αυξάνει κινδύνους σε εφαρμογές όπως chatbots, enterprise AI και ρυθμιστικά πλαίσια (EU AI Act). Οι ερευνητές απέφυγαν δημοσίευση ακριβών ποιημάτων για λόγους ασφαλείας, μοιραζόμενοι μόνο “ασφαλή” παραδείγματα, καλώντας σε νέα stress-tests και βαθύτερη κατανόηση discourse modes.​​

Με βάση τα παραπάνω είναι σημαντική η επανεξέταση των δικλείδων ασφαλείας για τα AI chatbots έτσι ώστε να μην υπάρξει το ενδεχόμενο να επηρεαστούν οι επενδύσεις στον κλάδο και να κλονιστεί η εμπιστοσύνη τόσο των χρηστών όσο και τον εταιρειών.

Μοιραστείτε αυτό το άρθρο