Το μοντέλο μετατροπής κειμένου σε φωνή της OpenAI χρειάζεται μόνο ένα δείγμα 15 δευτερολέπτων για να λειτουργήσει

Το μοντέλο μετατροπής κειμένου σε φωνή της OpenAI ονομάζεται Voice Generation και βρίσκεται σε εξέλιξη από τα τέλη του 2022 και τροφοδοτεί τη λειτουργία Read Aloud στο ChatGPT.

Συντάκτης: Newsroom Στις Τρίτη, 2 Απριλίου, 2024

Η OpenAI προσφέρει περιορισμένη πρόσβαση σε μια πλατφόρμα παραγωγής κειμένου σε φωνή που ανέπτυξε και ονομάζεται Voice Engine, η οποία μπορεί να δημιουργήσει μια συνθετική φωνή βασισμένη σε ένα κλιπ 15 δευτερολέπτων της φωνής κάποιου. Η φωνή που δημιουργείται από AI μπορεί να διαβάσει προτροπές κειμένου κατόπιν εντολής στην ίδια γλώσσα με τον ομιλητή ή σε πολλές άλλες γλώσσες. “Αυτές οι αναπτύξεις μικρής κλίμακας βοηθούν στην ενημέρωση της προσέγγισής μας, των διασφαλίσεων και της σκέψης για το πώς το Voice Engine θα μπορούσε να χρησιμοποιηθεί για καλό σε διάφορους κλάδους”, ανέφερε η OpenAI στην ανάρτηση ιστολογίου της.

Οι εταιρείες με πρόσβαση περιλαμβάνουν την εταιρεία τεχνολογίας εκπαίδευσης Age of Learning, την πλατφόρμα οπτικής αφήγησης HeyGen, τον κατασκευαστή λογισμικού υγείας πρώτης γραμμής Dimagi, τον δημιουργό εφαρμογών επικοινωνίας AI Livox και το σύστημα υγείας Lifespan.

Η OpenAI δήλωσε ότι άρχισε να αναπτύσσει το Voice Engine στα τέλη του 2022 και ότι η τεχνολογία έχει ήδη τροφοδοτήσει προκαθορισμένες φωνές για το API κειμένου σε ομιλία και τη λειτουργία Read Aloud του ChatGPT. Σε συνέντευξή του στο TechCrunch, ο Jeff Harris, μέλος της ομάδας προϊόντων της OpenAI για τη Voice Engine, δήλωσε ότι το μοντέλο εκπαιδεύτηκε σε “ένα μείγμα αδειοδοτημένων και δημόσια διαθέσιμων δεδομένων”. Η OpenAI δήλωσε στη δημοσίευση ότι το μοντέλο θα είναι διαθέσιμο μόνο σε περίπου 10 προγραμματιστές.

Η παραγωγή κειμένου σε ήχο AI είναι ένας τομέας γενετικής τεχνητής νοημοσύνης που συνεχίζει να εξελίσσεται. Ενώ οι περισσότεροι επικεντρώνονται σε οργανικούς ή φυσικούς ήχους, λιγότεροι έχουν επικεντρωθεί στην παραγωγή φωνής, εν μέρει λόγω των ερωτήσεων που ανέφερε η OpenAI. Ορισμένα ονόματα στο χώρο περιλαμβάνουν εταιρείες όπως η Podcastle και η ElevenLabs, οι οποίες παρέχουν τεχνολογία κλωνοποίησης φωνής AI και εργαλεία που διερεύνησε το Vergecast πέρυσι.

Ταυτόχρονα, η κυβέρνηση των ΗΠΑ προσπαθεί να περιορίσει τις χρήσεις της τεχνολογίας φωνής AI. Τον περασμένο μήνα, η Ομοσπονδιακή Επιτροπή Επικοινωνιών απαγόρευσε τις ρομποτικές κλήσεις χρησιμοποιώντας φωνές AI, αφού οι άνθρωποι έλαβαν ανεπιθύμητες κλήσεις από μια κλωνοποιημένη φωνή του προέδρου Τζο Μπάιντεν.

Σύμφωνα με την OpenAI, οι συνεργάτες της συμφώνησαν να συμμορφωθούν με τις πολιτικές χρήσης της που λένε ότι δεν θα χρησιμοποιήσουν το Voice Generation για να πλαστοπροσωπήσουν άτομα ή οργανισμούς χωρίς τη συγκατάθεσή τους. Απαιτεί επίσης από τους εταίρους να λάβουν τη ρητή και ενημερωμένη συγκατάθεση του αρχικού ομιλητή, όχι να δημιουργήσουν τρόπους για μεμονωμένους χρήστες να δημιουργήσουν τις δικές τους φωνές και να αποκαλύψουν στους ακροατές ότι οι φωνές δημιουργούνται από AI. Το OpenAI πρόσθεσε επίσης υδατογράφημα στα ηχητικά κλιπ για να εντοπίσει την προέλευσή τους και να παρακολουθεί ενεργά τον τρόπο χρήσης του ήχου.

Η OpenAI πρότεινε διάφορα βήματα που πιστεύει ότι θα μπορούσαν να περιορίσουν τους κινδύνους γύρω από εργαλεία όπως αυτά, συμπεριλαμβανομένης της σταδιακής κατάργησης του φωνητικού ελέγχου ταυτότητας για πρόσβαση σε τραπεζικούς λογαριασμούς, πολιτικές για την προστασία της χρήσης των φωνών των ανθρώπων στην τεχνητή νοημοσύνη, μεγαλύτερη εκπαίδευση σχετικά με τα deepfakes τεχνητής νοημοσύνης και ανάπτυξη συστημάτων παρακολούθησης περιεχομένου τεχνητής νοημοσύνης.

Μάθετε πρώτοι τα τελευταία νέα

Ακολουθήστε μας στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

OpenAI Voice Engine