OpenAI's DevDay Menyajikan API Realtime dan Fitur lainnya untuk Pengembang Aplikasi AI

Ini telah menjadi minggu yang bergejolak bagi OpenAI, penuh dengan kepindahan eksekutif dan perkembangan penggalangan dana besar, tetapi startup ini kembali lagi, mencoba meyakinkan para pengembang untuk membangun alat-alat dengan model AI miliknya di DevDay 2024. Perusahaan ini mengumumkan beberapa alat baru pada hari Selasa, termasuk beta publik dari “API Realtime”-nya, untuk membangun aplikasi dengan respon suara AI yang memiliki latensi rendah. Ini belum sepenuhnya Mode Suara Lanjutan ChatGPT, tetapi hampir mendekati.

Dalam sesi informasi dengan para wartawan menjelang acara, kepala produk OpenAI Kevin Weil mengatakan kepindahan baru saja pejabat teknologi Mira Murati dan pejabat penelitian Bob McGrew tidak akan memengaruhi kemajuan perusahaan ini.

“Saya akan memulainya dengan mengatakan bahwa Bob dan Mira telah menjadi pemimpin yang luar biasa. Saya telah belajar banyak dari mereka, dan mereka merupakan bagian besar dalam membawa kami ke posisi saat ini,” kata Weil. “Dan juga, kami tidak akan melambat.”

Saat OpenAI mengalami perombakan di tingkat eksekutif lagi - sebuah pengingat tentang kekacauan pasca DevDay tahun lalu - perusahaan ini mencoba meyakinkan para pengembang bahwa ia masih menawarkan platform terbaik untuk membangun aplikasi AI. Para pemimpin mengatakan bahwa startup ini memiliki lebih dari 3 juta pengembang yang membangun dengan model AI miliknya, tetapi OpenAI beroperasi di ruang yang semakin kompetitif.

OpenAI mencatat bahwa biaya untuk pengembang mengakses API-nya telah dipotong 99% dalam dua tahun terakhir, meskipun kemungkinan ia dipaksa melakukannya oleh pesaing seperti Meta dan Google yang terus-menerus menurunkan harga mereka.

Salah satu fitur baru OpenAI, yang diberi nama API Realtime, akan memberikan kesempatan kepada para pengembang untuk membangun pengalaman bicara-ke-bicara yang hampir real-time dalam aplikasi mereka, dengan pilihan menggunakan enam suara yang disediakan oleh OpenAI. Suara-suara ini berbeda dari yang ditawarkan untuk ChatGPT, dan pengembang tidak dapat menggunakan suara pihak ketiga, untuk mencegah masalah hak cipta. (Suara vagu yang didasarkan pada Scarlett Johansson tidak tersedia di mana pun.)

Selama sesi informasi, kepala pengalaman pengembang OpenAI, Romain Huet, membagikan demo sebuah aplikasi perencanaan perjalanan yang dibangun dengan API Realtime. Aplikasi ini memungkinkan pengguna berbicara secara verbal dengan asisten AI tentang perjalanan ke London yang akan datang, dan mendapatkan respon dengan latensi rendah. API Realtime juga memiliki akses ke sejumlah alat, sehingga aplikasi dapat mencatat peta dengan lokasi restoran saat menjawab.

Pada satu titik lain, Huet menunjukkan bagaimana API Realtime bisa berbicara melalui telepon dengan manusia untuk menanyakan tentang memesan makanan untuk sebuah acara. Tidak seperti Duo yang terkenal dari Google, API OpenAI tidak bisa langsung menghubungi restoran atau toko; bagaimanapun, ia dapat berintegrasi dengan API panggilan seperti Twilio untuk melakukannya. Terkait dengan itu, OpenAI tidak menambahkan pengungkapan sehingga model AI-nya secara otomatis mengidentifikasi diri mereka dalam panggilan seperti ini, meskipun suara-suaranya yang dihasilkan AI terdengar cukup realistis. Untuk saat ini, sepertinya tanggung jawab pengembang untuk menambahkan pengungkapan ini, sesuatu yang mungkin diperlukan oleh undang-undang baru di California.

Sebagai bagian dari pengumuman DevDay-nya, OpenAI juga memperkenalkan penyetelan gambar dalam API-nya, yang akan memungkinkan para pengembang menggunakan gambar, serta teks, untuk menyetel ulang aplikasi mereka dengan GPT-4o. Ini seharusnya, secara teori, membantu para pengembang meningkatkan kinerja GPT-4o untuk tugas-tugas yang melibatkan pemahaman visual. Kepala produk API OpenAI, Olivier Godement, memberitahu TechCrunch bahwa para pengembang tidak akan dapat mengunggah gambar yang dilindungi hak cipta (seperti gambar Donald Duck), gambar yang menggambarkan kekerasan, atau gambar lainnya yang melanggar kebijakan keamanan OpenAI.

OpenAI sedang berusaha untuk menyaingi apa yang ditawarkan pesaingnya dalam ruang lisensi model AI. Fitur pengeksplorasi prompt-nya mirip dengan fitur yang diluncurkan beberapa bulan yang lalu oleh Anthropic, yang memungkinkan pengembang menyimpan konteks yang sering digunakan antara panggilan API, mengurangi biaya dan meningkatkan latensi. OpenAI mengatakan para pengembang dapat menghemat 50% dengan fitur ini, sedangkan Anthropic menjanjikan diskon 90% untuk itu.

Terakhir, OpenAI menawarkan fitur distilasi model untuk memungkinkan para pengembang menggunakan model AI yang lebih besar, seperti o1-preview dan GPT-4o, untuk menyetel ulang model-model kecil seperti GPT-4o mini. Menjalankan model-model kecil umumnya memberikan penghematan biaya dibandingkan menjalankan model-model yang lebih besar, tetapi fitur ini seharusnya membantu para pengembang meningkatkan kinerja model-model AI kecil tersebut. Sebagai bagian dari distilasi model, OpenAI meluncurkan alat evaluasi beta sehingga para pengembang dapat mengukur kinerja penyetelan ulang mereka dalam API OpenAI.

DevDay mungkin lebih menciptakan gelombang besar karena apa yang tidak diumumkan - misalnya, tidak ada berita tentang GPT Store yang diumumkan selama DevDay tahun lalu. Terakhir yang kita dengar, OpenAI telah melakukan uji coba program bagi hasil dengan beberapa pencipta GPT paling populer, tetapi perusahaan tersebut belum banyak mengumumkan sejak itu.

Juga, OpenAI mengatakan bahwa tidak akan merilis model AI baru selama DevDay tahun ini. Para pengembang yang menunggu OpenAI o1 (bukan versi preview atau mini) atau model generasi video dari startup, Sora, harus menunggu sedikit lebih lama.