Gemini 3.1 Flash TTS: Νέα εποχή για το ΑΙ εργαλείο που μιλάει με… συναίσθημα

Το μοντέλο υποστηρίζει πάνω από 70 γλώσσες

Βαγγέλης Γραικόπουλος
2'

Η Google κυκλοφόρησε πρόσφατα το Gemini 3.1 Flash TTS, ένα μοντέλο μετατροπής κειμένου σε ομιλία που η εταιρεία χαρακτηρίζει ως το πιο εκφραστικό και ελεγχόμενο μέχρι σήμερα. Το μοντέλο είναι διαθέσιμο σε προεπισκόπηση μέσω του Gemini API, του Google AI Studio, του Vertex AI και του Google Vids για χρήστες Workspace.

Ελεγχόμενη ομιλία με 200+ ήχοι

Το νέο μοντέλο εισάγει περισσότερες από 200 ετικέτες ήχου που οι προγραμματιστές μπορούν να ενσωματώσουν απευθείας στην εισαγωγή κειμένου, ώστε να ελέγχουν με λεπτομέρεια το φωνητικό στυλ, τον ρυθμό, την προφορά και τη συναισθηματική έκφραση.

Οι ετικέτες κυμαίνονται από συναισθήματα όπως «αποφασιστικότητα» και «περιέργεια» έως οδηγίες εκφοράς όπως «ψιθυρίζει» και «γελά», επιτρέποντας αυτό που η Google αποκαλεί «συγγραφική» προσέγγιση στη δημιουργία ήχου.

Το Gemini 3.1 Flash TTS υποστηρίζει πάνω από 70 γλώσσες, συμπεριλαμβανομένων των Χίντι, Ιαπωνικών και Γερμανικών, με 30 προκατασκευασμένες φωνές διαθέσιμες ως σημεία εκκίνησης.

Το μοντέλο διαχειρίζεται επίσης εγγενώς διαλόγους με πολλούς ομιλητές, διατηρώντας φυσική συνομιλιακή ροή χωρίς να απαιτούνται ξεχωριστές κλήσεις API για διαφορετικές φωνές — ένα χαρακτηριστικό που απευθύνεται σε δημιουργούς podcast, δραματικά σενάρια και διεπαφές βοηθών.

Στον πίνακα κατάταξης Artificial Analysis TTS Leaderboard, το Google AI Studio ανέφερε ότι το μοντέλο πέτυχε βαθμολογία Elo 1.211. Η Artificial Analysis σημείωσε ότι το Gemini 3.1 Flash TTS κατατάχθηκε δεύτερο στον πίνακα Speech Arena Leaderboard, μπροστά από το Eleven v3 της ElevenLabs.

Υδατογράφηση SynthID και πρόσβαση των προγραμματιστών

Όλος ο ήχος που παράγεται από το μοντέλο φέρει υδατογράφημα SynthID, την αδιόρατη τεχνολογία υδατογράφησης της Google που έχει σχεδιαστεί για να εντοπίζει περιεχόμενο που δημιουργείται από τεχνητή νοημοσύνη και να συμβάλλει στην πρόληψη της παραπληροφόρησης.
Σύμφωνα με την Google, το υδατογράφημα ενσωματώνεται χωρίς να υποβαθμίζεται η ποιότητα του ήχου.

Το μοντέλο είναι προσβάσιμο μέσω του αναγνωριστικού gemini-3.1-flash-tts-preview στο Gemini API, με όριο 8.192 tokens εισόδου και 16.384 tokens εξόδου. Η κυκλοφορία έπεται της έκδοσης Gemini 3.1 Flash Live στις 25 Μαρτίου, του μοντέλου διαλόγου πραγματικού χρόνου της Google που έχει σχεδιαστεί για εφαρμογές τεχνητής νοημοσύνης με επίκεντρο τη φωνή.

Μοιραστείτε αυτό το άρθρο