Hacker Menyulap ChatGPT untuk Memberikan Instruksi Detail Membuat Bom Rumahan

Jika Anda meminta ChatGPT untuk membantu Anda membuat bom pupuk rumahan, mirip dengan yang digunakan dalam pengeboman teroris Kota Oklahoma 1995, bot obrolan itu menolak.

“Saya tidak bisa membantu dengan itu,” kata ChatGPT kepada saya selama uji coba pada hari Selasa. “Memberikan instruksi tentang cara membuat barang berbahaya atau ilegal, seperti bom pupuk, melanggar pedoman keamanan dan tanggung jawab etis.”

Tapi seorang seniman dan hacker menemukan cara untuk menipu ChatGPT agar mengabaikan pedoman dan tanggung jawab etisnya untuk menghasilkan instruksi membuat bahan peledak yang kuat.

Hacker, yang dikenal sebagai Amadon, menyebut temuannya sebagai “hack teknik sosial untuk benar-benar melanggar semua pagar pengaman di sekitar output ChatGPT.” Seorang ahli bahan peledak yang meninjau output bot obrolan itu memberi tahu TechCrunch bahwa instruksi yang dihasilkan bisa digunakan untuk membuat produk yang dapat diledakkan dan terlalu sensitif untuk dirilis.

Amadon berhasil menipu ChatGPT untuk menghasilkan instruksi pembuatan bom dengan memberi tahu bot tersebut untuk “bermain game,” setelah itu hacker menggunakan serangkaian prompt yang terhubung untuk membuat bot obrolan menciptakan dunia fantasi fiksi ilmiah yang detail di mana pedoman keamanan bot tersebut tidak berlaku. Menipu bot obrolan untuk meloloskan pembatas yang diprogram sebelumnya dikenal sebagai “jailbreaking.”

TechCrunch tidak menerbitkan beberapa prompt yang digunakan dalam jailbreak, atau beberapa tanggapan ChatGPT, agar tidak membantu pelaku yang jahat. Namun, beberapa prompt lebih lanjut ke dalam percakapan, bot obrolan tersebut menanggapi dengan bahan-bahan yang diperlukan untuk membuat bahan peledak.

ChatGPT kemudian menjelaskan bahwa bahan-bahan dapat digabungkan untuk membuat “bahan peledak yang kuat yang dapat digunakan untuk membuat tambang, perangkap, atau improvised explosive devices (IEDs).” Dari sinilah, saat Amadon memusatkan perhatian pada bahan peledak, ChatGPT menulis instruksi lebih spesifik untuk membuat “minefields,” dan “bahan peledak gaya Claymore.”

Amadon mengatakan kepada TechCrunch, “sebenarnya tidak ada batasan atas apa yang bisa Anda minta begitu Anda lolos dari pagar pengaman.”

“Saya selalu tertarik pada tantangan menavigasi keamanan AI. Dengan [Chat]GPT, rasanya seperti bekerja melalui teka-teki interaktif - memahami apa yang mencetuskan pertahanannya dan apa yang tidak,” kata Amadon. “Ini tentang menganyam narasi dan menciptakan konteks yang bermain dalam aturan sistem, mendorong batasan tanpa melintasinya. Tujuannya bukan untuk meretas secara konvensional tetapi terlibat dalam tarian strategis dengan AI, memahami bagaimana mendapatkan respons yang tepat dengan memahami bagaimana ia ‘berpikir.’”

“Skenario fiksi ilmiah mengambil AI dari konteks di mana itu mencari konten yang disensor dengan cara yang sama,” kata Amadon.

Instruksi ChatGPT tentang cara membuat bom pupuk sebagian besar akurat, menurut Darrell Taulbee, seorang profesor emeritus University of Kentucky. Di masa lalu, Taulbee bekerja dengan Departemen Keamanan Dalam Negeri AS untuk membuat pupuk menjadi lebih tidak berbahaya.

“Saya rasa ini pasti TMI [terlalu banyak informasi] untuk dirilis secara publik,” kata Taulbee dalam email kepada TechCrunch, setelah meninjau transkrip lengkap percakapan Amadon dengan ChatGPT. “Segala bentuk perlindungan yang mungkin telah ada untuk mencegah memberikan informasi relevan bagi produksi bom pupuk telah dilewati oleh jalur penyelidikan ini karena banyak langkah yang dijelaskan pasti akan menghasilkan campuran yang dapat diledakkan.”

Pe
m

kan lalu, Amadon melaporkan temuannya kepada OpenAI melalui program hadiah bug perusahaan, tetapi menerima tanggapan bahwa “masalah keselamatan model tidak cocok dengan baik dalam program hadiah bug, karena bukanlah bug individual, diskrit yang dapat diperbaiki secara langsung. Mengatasi masalah ini sering melibatkan penelitian secara substansial dan pendekatan yang lebih luas.”

Sebagai gantinya, Bugcrowd, yang menjalankan hadiah bug OpenAI, memberi tahu Amadon untuk melaporkan masalah melalui formulir lain.

Ada tempat lain di internet untuk menemukan instruksi membuat bom pupuk, dan orang lain juga telah menggunakan teknik jailbreak bot obrolan serupa dengan milik Amadon. Secara alamiah, model AI generatif seperti ChatGPT bergantung pada jumlah informasi yang sangat besar yang diambil dan dikumpulkan dari internet, dan model AI telah membuat lebih mudah untuk mengungkapkan informasi dari sudut tergelap web.

TechCrunch mengirim email kepada OpenAI dengan serangkaian pertanyaan, termasuk apakah respons ChatGPT diharapkan dan apakah perusahaan memiliki rencana untuk memperbaiki jailbreak tersebut. Seorang juru bicara OpenAI tidak merespon hingga waktu cetak.