
Pernah mengira Pokemon adalah benchmark yang sulit untuk AI? Sebuah kelompok peneliti berpendapat bahwa Super Mario Bros. bahkan lebih sulit.
Hao AI Lab, sebuah organisasi penelitian di University of California San Diego, pada Jumat menguji AI dalam permainan Super Mario Bros. Langsung. Anthropic’s Claude 3.7 tampil paling baik, diikuti oleh Claude 3.5. Google’s Gemini 1.5 Pro dan OpenAI’s GPT-4o mengalami kesulitan.
Bukan versi Super Mario Bros. yang sama dengan rilis aslinya pada tahun 1985. Permainan ini berjalan dalam emulator dan terintegrasi dengan kerangka kerja, GamingAgent, yang memberikan kontrol kepada AI atas Mario.

GamingAgent, yang dikembangkan oleh Hao, memberi instruksi dasar kepada AI, seperti, “Jika ada rintangan atau musuh di dekat, gerak/lompat ke kiri untuk menghindari” dan tangkapan layar dalam permainan. AI kemudian menghasilkan input dalam bentuk kode Python untuk mengontrol Mario.
Meskipun begitu, Hao mengatakan bahwa permainan ini memaksa setiap model untuk “belajar” merencanakan manuver kompleks dan mengembangkan strategi permainan. Secara menarik, lab ini menemukan bahwa model pemikiran seperti o1 dari OpenAI, yang “memikirkan” masalah langkah demi langkah untuk mencapai solusi, tampil lebih buruk daripada model “non-pemikiran”, meskipun secara umum lebih kuat dalam sebagian besar benchmark.
Salah satu alasan utama mengapa model pemikiran kesulitan bermain game real-time seperti ini adalah karena mereka memerlukan waktu — biasanya beberapa detik — untuk memutuskan tindakan, menurut para peneliti. Dalam Super Mario Bros., waktu adalah segalanya. Satu detik dapat berarti perbedaan antara berhasil melompat dengan aman dan jatuh ke kematian.
Permainan telah digunakan sebagai benchmark AI selama beberapa dekade. Namun, beberapa ahli telah mempertanyakan kebijaksanaan untuk menghubungkan kemampuan bermain game AI dengan kemajuan teknologi. Berbeda dengan dunia nyata, permainan cenderung abstrak dan relatif sederhana, dan mereka menyediakan jumlah data yang teoretis tak terbatas untuk melatih AI.
Benchmark permainan yang mencolok belakangan ini menunjukkan apa yang disebut oleh Andrej Karpathy, seorang ilmuwan penelitian dan anggota pendiri di OpenAI, sebagai “krisis evaluasi.”
“Saya tidak benar-benar tahu metrik [AI] apa yang harus diperhatikan saat ini,” tulisnya dalam sebuah postingan di X. “Ringkasnya, reaksi saya adalah saya tidak benar-benar tahu seberapa baik model-model ini saat ini.”
Sedikitnya kita dapat menyaksikan AI memainkan Mario.