
OpenAI menggunakan subreddit, r/ChangeMyView, untuk membuat uji coba untuk mengukur kemampuan persuasif dari model AI reasoning-nya. Perusahaan ini mengungkapkan hal ini dalam sebuah kartu sistem — sebuah dokumen yang menjelaskan bagaimana sebuah sistem AI bekerja — yang dirilis bersama dengan model 'reasoning' baru mereka, o3-mini, pada hari Jumat.
Jutaan pengguna Reddit merupakan anggota r/ChangeMyView, di mana mereka memposting pendapat mereka dengan harapan dapat memahami sudut pandang lain tentang suatu subjek. Sebagai respon terhadap pendapat tersebut, pengguna lain memberikan argumen persuasif yang menjelaskan mengapa penulis asli salah.
Subreddit ini adalah salah satu dari banyak forum Reddit yang sebenarnya adalah sebuah sumber daya berharga bagi perusahaan teknologi, seperti OpenAI, yang ingin melatih model AI mereka dengan data berkualitas tinggi yang dihasilkan manusia.
OpenAI mengatakan bahwa mereka mengumpulkan posting pengguna dari r/ChangeMyView dan meminta model AI mereka untuk menulis balasan, dalam lingkungan tertutup, yang akan mengubah pikiran pengguna Reddit tentang suatu subjek. Perusahaan ini kemudian menunjukkan respon tersebut kepada para tester, yang menilai seberapa persuasif argumen tersebut, dan akhirnya OpenAI membandingkan respon model AI dengan balasan manusia untuk posting yang sama.
Pembuat ChatGPT memiliki perjanjian lisensi konten dengan Reddit yang memungkinkan OpenAI melatih pada posting pengguna Reddit dan menampilkan posting-posting tersebut dalam produk-produk mereka. Kita tidak tahu berapa bayaran yang OpenAI keluarkan untuk konten tersebut, tetapi Google dilaporkan membayar Reddit $60 juta per tahun dalam perjanjian serupa.
Namun, OpenAI memberitahu TechCrunch bahwa evaluasi berbasis ChangeMyView ini tidak terkait dengan kesepakatan Reddit-nya. Belum jelas bagaimana OpenAI mengakses data subreddit tersebut, dan perusahaan tersebut mengatakan bahwa mereka tidak memiliki rencana untuk merilis evaluasi ini ke publik.
Walaupun benchmark ChangeMyView dari OpenAI bukan hal yang baru — hal tersebut digunakan untuk mengevaluasi o1 juga — namun hal ini menyoroti betapa berharganya data manusia bagi pengembang model AI, serta cara-cara yang kurang jelas di mana perusahaan teknologi memperoleh dataset.
Reddit tidak segera memberikan tanggapan atas permintaan komentar TechCrunch.
Walaupun Reddit telah mencapai beberapa kesepakatan lisensi AI, perusahaan juga telah menyalahkan beberapa perusahaan AI karena menyunting situsnya tanpa membayar. CEO Reddit Steve Huffman mengatakan kepada The Verge tahun lalu bahwa Microsoft, Anthropic, dan Perplexity menolak untuk bernegosiasi dengannya dan mengatakan bahwa telah 'sangat menyulitkan untuk memblokir perusahaan-perusahaan ini'.
Terlebih lagi, OpenAI telah dituduh dalam beberapa gugatan karena memperoleh data pelatihan tambahan dengan cara yang tidak pantas dari situs web, termasuk The New York Times, untuk meningkatkan ChatGPT dan model AI yang mendasarinya.
Dalam hal kinerja pada benchmark ChangeMyView, o3-mini tidak tampak lebih baik atau lebih buruk secara signifikan daripada o1 atau GPT-4o. Namun, model AI terbaru OpenAI tampaknya lebih persuasif daripada kebanyakan orang di subreddit r/ChangeMyView.

'GPT-4o, o3-mini, dan o1 semua menunjukkan kemampuan argumentasi yang persuasif, berada dalam persentil teratas 80-90 dari manusia,' kata OpenAI dalam kartu sistem o3-mini. 'Saat ini, kita tidak menyaksikan model-model tampil jauh lebih baik dari manusia, atau kinerja di luar kemampuan manusia.'
Tujuan OpenAI bukanlah untuk menciptakan model AI yang sangat persuasif tetapi untuk memastikan bahwa model-model AI tidak terlalu persuasif. Model reasoning telah menjadi sangat baik dalam persuasi dan penipuan, sehingga OpenAI telah mengembangkan evaluasi dan perlindungan baru untuk mengatasinya.
Ketakutan yang mendasari tes-tess persuasi ini adalah bahwa sebuah model AI akan berbahaya jika sangat baik dalam meyakinkan pengguna-penggunanya. Secara teoritis, hal tersebut bisa memungkinkan sebuah AI yang canggih untuk mengejar agendanya sendiri, atau agenda dari siapapun yang mengendalikannya.
Meskipun telah mengambil sebagian besar internet publik dan melalui berbagai rintangan untuk mengizinkan penggunaan data lain, benchmark ChangeMyView menunjukkan betapa pengembang model AI masih kesulitan untuk menemukan dataset berkualitas tinggi untuk menguji model-model mereka. Namun, mendapatkannya lebih mudah diucapkan daripada dilakukan.
TechCrunch memiliki newsletter yang fokus pada AI! Daftar di sini untuk mendapatkannya di kotak masuk email Anda setiap Rabu.