Mistral: Λανσάρει το Voxtral TTS, ένα νέο open source μοντέλο text-to-speech

Το νέο μοντέλο απευθύνεται τόσο σε voice assistants όσο και σε επιχειρησιακές εφαρμογές, όπως η εξυπηρέτηση πελατών και η υποστήριξη πωλήσεων.

Newsroom
2'

Η γαλλική εταιρεία τεχνητής νοημοσύνης Mistral παρουσίασε ένα νέο open source μοντέλο μετατροπής κειμένου σε ομιλία (text-to-speech), ενισχύοντας τη θέση της στον ταχέως αναπτυσσόμενο χώρο των voice AI τεχνολογιών. Το νέο μοντέλο, με την ονομασία Voxtral TTS, απευθύνεται τόσο σε voice assistants όσο και σε επιχειρησιακές εφαρμογές, όπως η εξυπηρέτηση πελατών και η υποστήριξη πωλήσεων.

Με αυτή την κίνηση, η Mistral τοποθετείται σε άμεσο ανταγωνισμό με εταιρείες που δραστηριοποιούνται ήδη στον χώρο της συνθετικής φωνής, επιδιώκοντας να προσφέρει μια πιο αποδοτική και ευέλικτη λύση.

Το Voxtral TTS υποστηρίζει εννέα γλώσσες — αγγλικά, γαλλικά, γερμανικά, ισπανικά, ολλανδικά, πορτογαλικά, ιταλικά, χίντι και αραβικά — δίνοντας τη δυνατότητα σε επιχειρήσεις να δημιουργήσουν πολυγλωσσικές εφαρμογές χωρίς απώλεια ποιότητας.

Ένα από τα βασικά χαρακτηριστικά του μοντέλου είναι η δυνατότητα δημιουργίας προσαρμοσμένης φωνής με δείγμα μικρότερο των πέντε δευτερολέπτων. Το σύστημα μπορεί να αποδώσει με ακρίβεια στοιχεία όπως προφορά, επιτονισμό και φυσικές “ατέλειες” της ανθρώπινης ομιλίας, ενισχύοντας τον ρεαλισμό του αποτελέσματος.

Επιπλέον, το μοντέλο μπορεί να εναλλάσσει γλώσσες χωρίς να αλλοιώνει τα χαρακτηριστικά της φωνής, κάτι που το καθιστά ιδιαίτερα χρήσιμο για εφαρμογές όπως το dubbing και η μετάφραση σε πραγματικό χρόνο.

Το Voxtral TTS έχει σχεδιαστεί για real-time λειτουργία, με χρόνο απόκρισης (time-to-first-audio) μόλις 90 milliseconds για δείγμα 500 χαρακτήρων. Παράλληλα, διαθέτει real-time factor 6x, που σημαίνει ότι μπορεί να δημιουργήσει ηχητικό απόσπασμα 10 δευτερολέπτων σε περίπου 1,6 δευτερόλεπτα.

Σύμφωνα με τη Mistral, το μοντέλο είναι μικρού μεγέθους και μπορεί να λειτουργήσει ακόμη και σε συσκευές όπως smartwatches, smartphones και laptops, μειώνοντας σημαντικά το κόστος σε σχέση με ανταγωνιστικές λύσεις.

Η κυκλοφορία του Voxtral TTS έρχεται σε συνέχεια προηγούμενων μοντέλων transcription που είχε παρουσιάσει η εταιρεία νωρίτερα μέσα στη χρονιά. Με αυτόν τον τρόπο, η Mistral φαίνεται να επιδιώκει τη δημιουργία μιας ολοκληρωμένης πλατφόρμας που θα καλύπτει πλήρως τις ανάγκες επεξεργασίας φωνής.

Ο στόχος είναι η ανάπτυξη end-to-end συστημάτων που θα διαχειρίζονται πολλαπλές μορφές δεδομένων — ήχο, κείμενο και εικόνα — προσφέροντας πιο πλούσιες και αποτελεσματικές εμπειρίες μέσω agentic AI εφαρμογών.

Μοιραστείτε αυτό το άρθρο
ΑπόNewsroom
Ακολουθήστε
Tο πρώτο ειδησεογραφικό πόρταλ στην Ελλάδα για τις startups, που αναδεικνύει τα νέα και τη δυναμική του ελληνικού οικοσυστήματος. Εκτός από την καταγραφή του ελληνικού οικοσυστήματος καλύπτει τα τεκταινόμενα και τις διεθνείς τάσεις σε ό,τι αφορά στις startups, τις επενδύσεις, τις νομικές και φορολογικές ρυθμίσεις που αφορούν στα επιχειρηματικά οικοσυστήματα της Ευρώπης και του κόσμου.