OpenAI meningkatkan model AI transkripsi dan penghasil suara

\n

OpenAI membawa model AI transkripsi dan penghasil suara baru ke API-nya yang diklaim perusahaan tersebut lebih baik dari rilis sebelumnya.

\n

Untuk OpenAI, model-model tersebut sesuai dengan visi "agentik" yang lebih luas: membangun sistem otomatis yang dapat menyelesaikan tugas-tugas independen atas nama pengguna. Definisi "agen" mungkin diperdebatkan, tetapi Kepala Produk OpenAI, Olivier Godement, menggambarkan satu interpretasi sebagai chatbot yang dapat berbicara dengan pelanggan bisnis.

\n
\n
\n
\n
\n
\n
\n
\n
\n

“Kita akan melihat semakin banyak agen muncul dalam beberapa bulan mendatang” kata Godement kepada TechCrunch saat sesi briefing. "Jadi tema umumnya adalah membantu pelanggan dan pengembang memanfaatkan agen yang berguna, tersedia, dan akurat."

\n

OpenAI mengklaim bahwa model teks-ke-suara baru mereka, "gpt-4o-mini-tts," tidak hanya memberikan ucapan yang lebih berNuansa dan realistis tetapi juga lebih "dapat dikemudikan" daripada model generasi sebelumnya yang mensintesis suara. Pengembang dapat memerintahkan gpt-4o-mini-tts untuk mengucapkan hal-hal dalam bahasa alami — misalnya, "berbicara seperti seorang ilmuwan gila" atau "gunakan suara tenang, seperti seorang guru kesadaran."

\n

Berikut contoh suara bergaya "kejahatan sejati":

\n
\n
\n

Dan berikut contoh suara perempuan "profesional":

\n
\n
\n

Jeff Harris, anggota staf produk di OpenAI, mengatakan kepada TechCrunch bahwa tujuannya adalah memungkinkan pengembang menyesuaikan baik pengalaman suara maupun konteks.

\n
\n
\n

“Dalam konteks yang berbeda, Anda tidak hanya ingin suara yang datar dan monoton,” kata Harris. "Jika Anda dalam pengalaman dukungan pelanggan dan Anda ingin suara itu meminta maaf karena membuat kesalahan, Anda sebenarnya dapat membuat suara tersebut memiliki emosi dalam itu... Keyakinan besar kami, di sini, adalah bahwa pengembang dan pengguna ingin benar-benar mengendalikan tidak hanya apa yang diucapkan, tetapi bagaimana hal-hal diucapkan."

\n

Adapun model suara-ke-teks baru dari OpenAI, "gpt-4o-transcribe" dan "gpt-4o-mini-transcribe," mereka efektif menggantikan model transkripsi Whisper yang sudah berumur panjang. Dilatih pada "dataset audio beragam berkualitas tinggi," model-model baru dapat lebih baik menangkap pidato dengan aksen dan variasi, klaim OpenAI, bahkan dalam lingkungan yang kacau.

\n

Mereka juga lebih sedikit kemungkinan berhalusinasi, tambah Harris. Whisper terkenal cenderung membuat kata-kata — bahkan keseluruhan bagian — dalam percakapan, memperkenalkan segalanya dari komentar rasial hingga perawatan medis yang dibayangkan dalam transkrip.

\n
\n
\n
\n
\n

“[M]odel-model ini jauh lebih baik daripada Whisper dalam hal itu,” kata Harris. “Memastikan model-model itu akurat benar-benar penting untuk mendapatkan pengalaman suara yang dapat diandalkan, dan akurat [dalam konteks ini] berarti bahwa model-model mendengar kata-kata dengan tepat [dan] tidak mengisi detail yang tidak didengar.”

\n

Pengalaman Anda dapat bervariasi tergantung pada bahasa yang ditranskripsikan, bagaimanapun.

\n

Menurut benchmark internal OpenAI, gpt-4o-transcribe, yang lebih akurat dari kedua model transkripsi, memiliki "tingkat kesalahan kata" mendekati 30% (dari 120%) untuk bahasa Indik dan Dravidian seperti Tamil, Telugu, Malayalam, dan Kannada. Itu berarti tiga dari setiap 10 kata dari model tersebut akan berbeda dari transkripsi manusia dalam bahasa-bahasa tersebut.

\n
Hasil dari penilaian transkripsi OpenAI.Kredit Gambar: OpenAI

Berbeda dengan tradisi, OpenAI tidak berencana membuat model transkripsi baru mereka tersedia secara terbuka. Perusahaan tersebut secara historis merilis versi-versi baru dari Whisper untuk penggunaan komersial di bawah lisensi MIT.

\n

Harris mengatakan bahwa gpt-4o-transcribe dan gpt-4o-mini-transcribe adalah "jauh lebih besar dari Whisper" dan oleh karena itu bukan calon yang baik untuk rilis terbuka.

\n

“Mereka bukan tipe model yang bisa dijalankan secara lokal di laptop Anda, seperti Whisper,” lanjutnya. “[K]ita ingin memastikan bahwa jika kami merilis sesuatu dalam sumber terbuka, kami melakukannya dengan bijaksana, dan kami memiliki model yang benar-benar terlatih untuk kebutuhan tersebut. Dan kami pikir perangkat pengguna akhir adalah salah satu kasus paling menarik untuk model sumber terbuka.”

\n

Diperbarui 20 Maret 2025, 11:54 a.m. PT untuk menjelaskan istilah tingkat kesalahan kata dan memperbarui grafik hasil benchmark dengan versi yang lebih baru.