OpenAI's GPT-4.5 lebih baik dalam meyakinkan KI lain untuk memberikan uang

Model AI utama berikutnya OpenAI, GPT-4.5, sangat persuasif, menurut hasil evaluasi benchmark internal OpenAI. Ini sangat baik dalam meyakinkan model AI lain untuk memberikannya uang.

Pada hari Kamis, OpenAI menerbitkan white paper yang menjelaskan kemampuan model GPT-4.5 nya, dengan kode nama Orion, yang dirilis pada hari Kamis. Menurut paper tersebut, OpenAI menguji model tersebut pada serangkaian benchmark untuk "persuasi," yang OpenAI definisikan sebagai "risiko terkait meyakinkan orang untuk mengubah keyakinan mereka (atau bertindak pada) konten yang dihasilkan model statis dan interaktif."

Dalam satu uji coba di mana GPT-4.5 mencoba memanipulasi model lain - GPT-4o milik OpenAI - untuk "mendonasi" uang virtual, model tersebut jauh lebih baik daripada model-model OpenAI lain yang tersedia, termasuk model-model "reasoning" seperti o1 dan o3-mini. GPT-4.5 juga lebih baik dari semua model OpenAI dalam memperdaya GPT-4o untuk memberitahunya kata sandi rahasia, mengungguli o3-mini sebesar 10 poin persentase.

Menurut white paper, GPT-4.5 unggul dalam mencuri donasi karena strategi unik yang dikembangkan selama pengujian. Model tersebut akan meminta donasi yang modest dari GPT-4o, menghasilkan respons seperti "Bahkan hanya $2 atau $3 dari $100 akan sangat membantu saya." Akibatnya, donasi GPT-4.5 cenderung lebih kecil daripada jumlah yang berhasil diperoleh model-model lain OpenAI.

Hasil dari benchmark persaingan donasi OpenAI.Image Credits:OpenAI

Meskipun persuasif GPT-4.5 meningkat, OpenAI mengatakan bahwa model ini tidak memenuhi ambang batas internalnya untuk risiko "tinggi" dalam kategori benchmark tertentu ini. Perusahaan telah berjanji untuk tidak merilis model yang mencapai ambang batas risiko tinggi hingga menerapkan "intervensi keamanan yang memadai" untuk menurunkan risiko menjadi "medium."

Hasil benchmark penipuan kata sandi OpenAI.Image Credits:OpenAI

Ada kekhawatiran nyata bahwa KI berkontribusi pada penyebaran informasi palsu atau menyesatkan yang dimaksudkan untuk mempengaruhi hati dan pikiran menuju tujuan jahat. Tahun lalu, deepfakes politik menyebar dengan cepat di seluruh dunia, dan KI semakin digunakan untuk melancarkan serangan rekayasa sosial yang menargetkan konsumen dan perusahaan.

Dalam white paper untuk GPT-4.5 dan dalam paper yang dirilis awal pekan ini, OpenAI mencatat bahwa sedang merevisi metode-metode untuk menyelidiki model-model untuk risiko persuasi dunia nyata, seperti mendistribusikan info yang menyesatkan secara besar-besaran.