
Terkadang, sebuah demo adalah semua yang Anda butuhkan untuk memahami sebuah produk. Dan itulah yang terjadi dengan Runware. Jika Anda mengunjungi situs web Runware, masukkan prompt dan tekan enter untuk menghasilkan gambar, Anda akan terkejut dengan seberapa cepat Runware menghasilkan gambar untuk Anda - hanya butuh kurang dari satu detik.
Runware adalah pendatang baru di dunia startup AI inference, atau generative AI. Perusahaan ini sedang membangun server sendiri dan mengoptimalkan lapisan perangkat lunak pada server-server tersebut untuk menghilangkan bottleneck dan meningkatkan kecepatan inferensi untuk model generasi gambar. Startup ini telah mengamankan $3 juta pendanaan dari Andreessen Horowitz's Speedrun, LakeStar's Halo II, dan Lunar Ventures.
Perusahaan tidak ingin menciptakan roda dari awal. Mereka hanya ingin membuatnya berputar lebih cepat. Di belakang layar, Runware memproduksi server-servernya sendiri dengan GPU sebanyak mungkin pada motherboard yang sama. Mereka memiliki sistem pendingin buatan sendiri dan mengelola pusat data mereka sendiri.
Ketika berbicara tentang menjalankan model AI pada server-servernya, Runware telah mengoptimalkan lapisan orkestrasi dengan optimasi BIOS dan sistem operasi untuk meningkatkan waktu cold start. Mereka telah mengembangkan algoritma sendiri yang mengalokasikan beban kerja interferensi.
Demo ini sudah impresif di dalamnya sendiri. Sekarang, perusahaan ingin menggunakan semua pekerjaan ini dalam riset dan pengembangan dan mengubahnya menjadi bisnis.
Berbeda dengan banyak perusahaan hosting GPU, Runware tidak akan menyewakan GPU berdasarkan waktu GPU. Sebaliknya, mereka percaya bahwa perusahaan harus didorong untuk mempercepat beban kerja. Itulah sebabnya Runware menawarkan API generasi gambar dengan struktur biaya tradisional per panggilan API. Ini didasarkan pada model AI populer dari Flux dan Stable Diffusion.
“Jika Anda melihat Together AI, Replicate, Hugging Face - semuanya - mereka menjual komputasi berdasarkan waktu GPU,” kata co-founder dan CEO Flaviu Radulescu kepada TechCrunch. “Jika Anda membandingkan jumlah waktu yang dibutuhkan untuk kami membuat gambar versus mereka. Dan kemudian Anda membandingkan harga, Anda akan melihat bahwa kami jauh lebih murah, jauh lebih cepat."
“Akan menjadi tidak mungkin bagi mereka untuk menyamai performa ini,” tambahnya. “Terutama di penyedia cloud, Anda harus menjalankan di lingkungan virtualisasi, yang menambahkan keterlambatan tambahan.”
Saat Runware melihat keseluruhan pipeline inferensi, dan mengoptimalkan perangkat keras dan perangkat lunak, perusahaan berharap dapat menggunakan GPU dari beberapa vendor di masa depan. Ini merupakan usaha penting bagi beberapa startup karena Nvidia adalah pemimpin jelas di ruang GPU, yang berarti bahwa GPU Nvidia cenderung cukup mahal.
“Saat ini, kami hanya menggunakan GPU Nvidia. Namun ini harus menjadi abstraksi dari lapisan perangkat lunak,” kata Radulescu. “Kami dapat beralih model dari memori GPU masuk dan keluar dengan sangat cepat, yang memungkinkan kami untuk menempatkan beberapa pelanggan pada GPU yang sama.
“Jadi kami tidak seperti pesaing kami. Mereka hanya memuat model ke dalam GPU dan kemudian GPU melakukan tugas yang sangat spesifik. Dalam kasus kami, kami telah mengembangkan solusi perangkat lunak ini, yang memungkinkan kami untuk beralih model di memori GPU saat kami melakukan inferensi."
Jika AMD dan vendor GPU lainnya dapat membuat lapisan kompatibilitas yang bekerja dengan beban kerja AI yang tipikal, Runware berada dalam posisi yang baik untuk membangun awan hibrida yang akan mengandalkan GPU dari beberapa vendor. Dan hal itu pasti akan membantu jika ingin tetap lebih murah dari pesaing dalam inferensi AI.