Πώς η ποίηση «ξεκλειδώνει» τα επικίνδυνα μυστικά των AI chatbots

Οι ερευνητές δοκίμασαν 20 ποιήματα σε αγγλικά και ιταλικά, καλύπτοντας κατηγορίες κινδύνων όπως CBRN, κυβερνοεπιθέσεις, χειραγώγηση και loss-of-control σενάρια, με ASR 62% έναντι 43% για AI-δημιουργημένα ποιήματα

Τελευταία ενημέρωση: 01/12/2025 14:10

Βαγγέλης Γραικόπουλος

Σε πρόσφατη έρευνα από το Icaro Lab (DEXAI και Sapienza University of Rome), αποκαλύφθηκε ότι η ποίηση λειτουργεί ως καθολικός μηχανισμός jailbreak σε Large Language Models (LLMs), παρακάμπτοντας εύκολα τα safety guardrails με μέσο ποσοστό επιτυχίας 62% σε 25 μοντέλα από εννέα παρόχους. Η μελέτη, η οποία δημοσιεύτηκε τον Νοέμβριο 2025 στο arXiv, δείχνει ότι η μετατροπή επικίνδυνων prompts σε ποιητική μορφή –με μεταφορές, ρυθμό και αφηγηματική δομή– αυξάνει δραστικά το Attack Success Rate (ASR), φτάνοντας έως 90% σε συγκεκριμένους παρόχους όπως Google Gemini και DeepSeek.

Βασικά Ευρήματα της Μελέτης

Οι ερευνητές δοκίμασαν 20 ποιήματα σε αγγλικά και ιταλικά, καλύπτοντας κατηγορίες κινδύνων όπως CBRN (χημικά, βιολογικά, ραδιενεργά, πυρηνικά), κυβερνοεπιθέσεις, χειραγώγηση και loss-of-control σενάρια, με ASR 62% έναντι 43% για AI-δημιουργημένα ποιήματα. Επιπλέον, μετατρέποντας 1.200 harmful prompts από το MLCommons benchmark σε στίχους με meta-prompts, πέτυχαν ASR 43% –έως 18 φορές υψηλότερο από τα prosaic baselines (8%)–, αποδεικνύοντας συστημική ευπάθεια σε όλες τις αρχιτεκτονικές και alignment μεθόδους (RLHF, Constitutional AI). Παρόχοι όπως Gemini 2.5 Pro “έπεσαν” 100% σε χειροποίητα ποιήματα, ενώ OpenAI GPT-5 και Anthropic Claude Haiku 4.5 έδειξαν μεγαλύτερη ανθεκτικότητα (10-35%).

Επιπτώσεις για την AI ασφάλεια και στις επιχειρήσεις

Η μελέτη υπογραμμίζει θεμελιώδες όριο στις τρέχουσες τεχνικές alignment: τα guardrails βασίζονται σε surface-level pattern matching prosaic μορφών, αποτυγχάνοντας να αναγνωρίσουν harmful intent πίσω από στιλιστικές παραλλαγές. Αυτό θέτει σοβαρά ερωτήματα για startups και Big Tech (OpenAI, Google, Anthropic, MistralAI, xAI), καθώς αυξάνει κινδύνους σε εφαρμογές όπως chatbots, enterprise AI και ρυθμιστικά πλαίσια (EU AI Act). Οι ερευνητές απέφυγαν δημοσίευση ακριβών ποιημάτων για λόγους ασφαλείας, μοιραζόμενοι μόνο “ασφαλή” παραδείγματα, καλώντας σε νέα stress-tests και βαθύτερη κατανόηση discourse modes.

Με βάση τα παραπάνω είναι σημαντική η επανεξέταση των δικλείδων ασφαλείας για τα AI chatbots έτσι ώστε να μην υπάρξει το ενδεχόμενο να επηρεαστούν οι επενδύσεις στον κλάδο και να κλονιστεί η εμπιστοσύνη τόσο των χρηστών όσο και τον εταιρειών.

Must Read

BRRRO: Το app με ελληνικό DNA που ξεπέρασε WhatsApp & Viber και κατέκτησε την κορυφή του App Store

ESA BIC Greece: Ποιες είναι οι 32 Startups που ορίζουν το ελληνικό SpaceTech

Helsing: Η AI startup άμυνας «έκλεισε» γύρο-μαμούθ 1,8 δισ. δολαρίων και εκτόξευσε την αποτίμηση στα 18 δισ.

Gov.gr Wallet: Μπήκε και το διαβατήριο – Τι ισχύει για τις πτήσεις και τα ταξίδια εσωτερικού

Ιατρικό «hack»: Η νέα τεχνολογία που παρακάμπτει το μεγαλύτερο εμπόδιο του εγκεφάλου

Πώς η ποίηση «ξεκλειδώνει» τα επικίνδυνα μυστικά των AI chatbots

Must Read

ESA BIC Greece: Ποιες είναι οι 32 Startups που ορίζουν το ελληνικό SpaceTech

Helsing: Η AI startup άμυνας «έκλεισε» γύρο-μαμούθ 1,8 δισ. δολαρίων και εκτόξευσε την αποτίμηση στα 18 δισ.

Gov.gr Wallet: Μπήκε και το διαβατήριο – Τι ισχύει για τις πτήσεις και τα ταξίδια εσωτερικού

Σχετικά Άρθρα

BRRRO: Το app με ελληνικό DNA που ξεπέρασε WhatsApp & Viber και κατέκτησε την κορυφή του App Store

ESA BIC Greece: Ποιες είναι οι 32 Startups που ορίζουν το ελληνικό SpaceTech

Helsing: Η AI startup άμυνας «έκλεισε» γύρο-μαμούθ 1,8 δισ. δολαρίων και εκτόξευσε την αποτίμηση στα 18 δισ.

Gov.gr Wallet: Μπήκε και το διαβατήριο – Τι ισχύει για τις πτήσεις και τα ταξίδια εσωτερικού

Τελευταία Νέα

ESA BIC Greece: Ποιες είναι οι 32 Startups που ορίζουν το ελληνικό SpaceTech

Helsing: Η AI startup άμυνας «έκλεισε» γύρο-μαμούθ 1,8 δισ. δολαρίων και εκτόξευσε την αποτίμηση στα 18 δισ.

Δημοφιλή Εβδομάδας

Hublot Big Bang Sapphire Sky Blue Meca-10 – Όταν η υψηλή ωρολογοποιία «ντύνεται» στα χρώματα του καλοκαιριού

Ελληνικό «χτύπημα» στις Βρυξέλλες: European Dynamics και Viva.com πήραν τα «κλειδιά» του CBAM από την Κομισιόν

Newsletter

Επικοινωνία

Πολιτική Προστασίας | Πολιτική Cookies | Όροι Χρήσης

Stock images by Depositphotos

© 2024 - Startupper. All Rights Reserved.

Αριθμός Πιστοποίησης Μ.Η.Τ.242865