Studi Temukan ChatGPT-5 Sering Salah 1 dari 4 Kali, Ini Penyebabnya
- Tangkapan Layar
Digital – Artificial Intelligence (AI) semakin banyak digunakan dalam kehidupan sehari-hari, mulai dari mencari informasi, membuat konten, hingga memberikan saran. Namun, meskipun terlihat pintar, ChatGPT-5 ternyata masih sering salah. Menurut studi terbaru dari OpenAI, chatbot ini bisa keliru sekitar 1 dari 4 kali.
Hal yang menarik, kesalahan ini bukan sekadar acak, melainkan muncul akibat cara AI dilatih dan diuji. Fenomena tersebut dalam dunia AI dikenal dengan istilah “halusinasi”.
Apa Itu Halusinasi AI?
Halusinasi AI terjadi ketika chatbot memberikan jawaban yang salah atau menyimpang jauh dari pertanyaan, namun tetap disampaikan dengan penuh percaya diri. Misalnya, ada kasus pengguna hanya meminta ide, tetapi ChatGPT tiba-tiba menghasilkan cerita fantasi panjang yang tidak relevan.
Masalah utama dari halusinasi bukan hanya jawabannya salah, melainkan AI terlihat sangat yakin dengan jawabannya, sehingga membuat pengguna bisa tertipu.
Kenapa ChatGPT-5 Sering Menebak daripada Mengaku Tidak Tahu?
Menurut riset OpenAI yang dilansir dari Tom’s Guide, akar masalahnya ada pada sistem evaluasi model AI. Dalam pengujian, chatbot yang menjawab “saya tidak tahu” justru mendapat nilai rendah. Sebaliknya, model yang selalu memberi jawaban,meski salah, cenderung mendapat peringkat lebih tinggi.
Artinya, chatbot dilatih untuk selalu memberikan jawaban, bahkan ketika sebenarnya tidak yakin. Untuk pertanyaan ringan, mungkin ini tidak terlalu berbahaya. Namun, pada kasus penting seperti kesehatan, keuangan, atau hukum, kesalahan ini bisa berdampak besar.
Model Baru Belum Tentu Lebih Jujur
Menariknya, studi juga menemukan bahwa model terbaru yang fokus pada penalaran, seperti o3 dan o4-mini, justru lebih sering halusinasi dibanding model lama. Alasannya, model ini menghasilkan lebih banyak klaim dan pernyataan, sehingga kemungkinan salah juga lebih besar.
Dengan kata lain, semakin pintar sebuah model dalam menjelaskan sesuatu, tidak berarti ia semakin jujur untuk mengakui keterbatasannya.
Solusi: Mengubah Cara Menilai AI
Para peneliti menyarankan agar sistem penilaian AI diubah. Alih-alih menghukum model karena berkata “saya tidak yakin”, seharusnya model diberi penghargaan jika bisa memberikan jawaban dengan tingkat kepastian yang jelas, atau bahkan menunda jawaban sampai ada sumber valid.
Jika perubahan ini diterapkan, chatbot di masa depan mungkin akan lebih sering berkata: “Saya rasa jawabannya ini, tapi saya tidak sepenuhnya yakin.” Meski terdengar lambat, pendekatan ini justru dapat mengurangi kesalahan berbahaya dan membuat interaksi AI lebih aman.
Apa Artinya Bagi Pengguna?
Jika Anda menggunakan AI populer seperti ChatGPT, Gemini, Claude, atau Grok, kemungkinan besar sudah pernah melihat halusinasi. Studi ini menegaskan bahwa masalah tersebut bukan sepenuhnya kesalahan model, melainkan hasil dari cara mereka diuji.
Bagi pengguna, ini menjadi pengingat bahwa jawaban AI sebaiknya dianggap sebagai saran awal, bukan kebenaran mutlak. Melakukan verifikasi informasi dan meminta sumber adalah langkah penting sebelum mempercayai hasil dari chatbot.
Sementara itu, bagi pengembang, riset ini menjadi sinyal bahwa sudah saatnya mengukur keberhasilan AI bukan dari seberapa banyak ia menjawab, tetapi seberapa jujur ia dalam mengakui keterbatasan.
Studi OpenAI menunjukkan bahwa ChatGPT-5 bisa salah 25% dari waktu penggunaannya. Kesalahan ini bukan terjadi begitu saja, tetapi karena sistem evaluasi yang lebih menghargai jawaban percaya diri ketimbang kejujuran.
Ke depan, jika sistem penilaian diubah, mungkin kita akan melihat chatbot yang lebih berhati-hati dan transparan. Sampai saat itu tiba, pengguna tetap harus kritis, melakukan cross-check, dan mengingat bahwa AI bukan pengganti logika serta verifikasi manusia.