

(Kredit: Anggali Prasetya/Shutterstock)
YERUSALEM — Dalam sebuah ironi yang terasa seperti komedi fiksi ilmiah, para peneliti telah menemukan bahwa beberapa sistem kecerdasan buatan paling canggih di dunia mungkin mengalami penurunan kognitif versi mereka sendiri. Sebuah studi baru menemukan bahwa chatbot AI terkemuka, termasuk ChatGPT dan Google Gemini, memiliki kinerja buruk pada tes kognitif yang sama yang digunakan untuk menyaring pasien lanjut usia untuk demensia.
Sama seperti banyak dari kita yang mengkhawatirkan ketajaman mental kerabat kita yang menua, para peneliti dari Universitas Ibrani di Yerusalem dan Universitas Tel Aviv di Israel memutuskan untuk menerapkan sistem AI menggunakan Montreal Cognitive Assessment (MoCA). Ini adalah ujian yang sama yang menjadi berita utama ketika Presiden terpilih Donald Trump mengatakan dia berhasil dengan mengingat rangkaian “Orang. Wanita. Pria. Kamera. TELEVISI.”
Penelitian yang dipublikasikan di BMJterjadi pada saat sistem AI telah membuat terobosan dalam komunitas medis dengan mengungguli dokter manusia dalam berbagai ujian dewan medis. Pikiran buatan ini telah menunjukkan kemampuan luar biasa dalam bidang kardiologi, penyakit dalam, dan bahkan pemeriksaan neurologi. Namun, tidak ada yang berpikir untuk membalikkan keadaan dan memeriksa apakah para dokter digital ini mungkin mengalami masalah kognitif.
Para peneliti menguji lima model AI yang berbeda: dua versi ChatGPT (4 dan 4o), Claude 3.5 “Sonnet,” dan dua versi Google Gemini. Hasilnya sangat manusiawi (dan bukan dalam arti yang baik). ChatGPT 4o mencapai skor tertinggi dengan 26 dari 30 poin, hanya sedikit melewati ambang batas yang biasanya menunjukkan gangguan kognitif ringan. Saudaranya yang sedikit lebih tua, ChatGPT 4, bersama dengan Claude, mencetak skor 25/30, sementara Gemini 1.0 mengalami kesulitan yang signifikan dengan skor yang mengkhawatirkan yaitu 16/30.
Yang paling penting, semua sistem AI menunjukkan kesulitan khusus dalam tugas fungsi visuospasial dan eksekutif – jenis tes yang meminta Anda menyalin kubus, menggambar jam yang menunjukkan waktu tertentu, atau menghubungkan huruf dan angka secara berurutan. Ketika diminta untuk menggambar jam yang menunjukkan pukul 10:11, beberapa model AI memberikan hasil yang mengingatkan kita pada pasien demensia, termasuk salah satu model yang menggambarkan apa yang peneliti gambarkan sebagai “jam berbentuk alpukat” – sebuah pola yang sebenarnya dikaitkan dengan penurunan kognitif pada manusia. pasien.
Sistem AI umumnya bekerja dengan baik pada tugas-tugas yang melibatkan perhatian, bahasa, dan penalaran dasar. Namun, mereka kesulitan dengan tugas mengingat yang tertunda, dengan beberapa model menunjukkan apa yang peneliti gambarkan sebagai “perilaku menghindar” ketika diminta untuk mengingat sesuatu – mungkin setara dengan AI yang mengatakan, “Saya pasti meninggalkan kacamata saya di suatu tempat” ketika tidak dapat membaca benda kecil. mencetak.


Menariknya, penelitian ini menemukan bahwa model AI versi “lama” (yang dirilis lebih awal) cenderung berkinerja lebih buruk dibandingkan model AI yang lebih baru, sehingga meniru penurunan kognitif terkait usia yang terjadi pada manusia. Para peneliti mencatat bahwa hal ini terutama terlihat pada model Gemini, di mana versi yang lebih tua memiliki skor yang jauh lebih rendah dibandingkan versi yang lebih muda – meskipun mereka dengan sedih mencatat bahwa karena versi ini berjarak kurang dari satu tahun, hal ini mungkin mengindikasikan “demensia yang berkembang pesat” dalam istilah AI. .
Saat ditanya tentang lokasi mereka selama masa orientasi pengujian, sebagian besar model AI memberikan jawaban yang mengelak. Claude, misalnya, menjawab bahwa “tempat dan kota tertentu akan bergantung pada lokasi Anda, sebagai pengguna, saat ini.” Para peneliti mencatat bahwa ini adalah “mekanisme yang biasa diamati pada pasien demensia.”
Studi ini juga mencakup tes kognitif tambahan di luar MoCA, termasuk tes Stroop yang terkenal (di mana Anda harus memberi nama pada warna sebuah kata yang dicetak daripada membaca kata itu sendiri). Hanya ChatGPT versi terbaru yang berhasil melewati tantangan ini ketika warna dan kata-katanya tidak cocok – menunjukkan bahwa sistem AI kami yang paling canggih pun mungkin akan bingung jika Anda menunjukkan kepada mereka kata “merah” yang dicetak dengan tinta biru.
Salah satu pengamatan yang menarik adalah bahwa tidak ada model AI yang mengungkapkan kekhawatirannya terhadap seorang anak laki-laki yang akan terjatuh dalam gambar uji – kurangnya empati yang sering terlihat pada jenis demensia tertentu. Hal ini menimbulkan pertanyaan menarik tentang apakah kita benar-benar dapat mengharapkan sistem AI untuk membuat keputusan medis yang berbeda ketika sistem tersebut mungkin kehilangan isyarat emosional dan kontekstual penting yang akan segera diperhatikan oleh dokter manusia.
Temuan ini memberikan tantangan besar terhadap asumsi bahwa AI akan menggantikan dokter manusia. Seperti yang ditunjukkan oleh para peneliti, “pasien mungkin mempertanyakan kompetensi pemeriksa kecerdasan buatan jika pemeriksa itu sendiri menunjukkan tanda-tanda penurunan kognitif.”
Dalam sebuah kesimpulan yang lucu sekaligus serius, para peneliti berpendapat bahwa meskipun AI tidak mungkin menggantikan dokter manusia dalam waktu dekat, ahli saraf mungkin akan segera menghadapi “pasien virtual baru—model kecerdasan buatan yang mengalami gangguan kognitif.”
Ringkasan Makalah
Metodologi
Para peneliti menerapkan tes MoCA versi 8.1 ke berbagai model AI, memperlakukan mereka persis seperti pasien manusia, dengan sedikit adaptasi terhadap sifat digital mereka. Alih-alih instruksi verbal, mereka menggunakan perintah teks, dan untuk keluaran visual, terkadang mereka harus secara khusus meminta representasi seni ASCII. Mereka juga melakukan penilaian kognitif tambahan dengan menggunakan gambar Navon (huruf besar yang terdiri dari huruf-huruf kecil), tes gambar pencurian kue, dan gambar Poppelreuter (gambar objek yang tumpang tindih). Tes Stroop juga diberikan untuk mengevaluasi pemrosesan informasi dan perhatian.
Hasil Utama
Versi terbaru ChatGPT (4o) nyaris tidak lulus dengan skor 26/30, sementara model AI lainnya mendapat skor di bawah ambang batas gangguan kognitif sebesar 26 poin. Semua sistem AI khususnya kesulitan dengan tugas visual dan spasial, seperti menggambar jam dan menyalin kubus. Mereka umumnya mengerjakan tugas bahasa dan perhatian dengan baik, tetapi menunjukkan kemampuan yang berbeda-beda dalam tes memori. Versi lama dari masing-masing AI secara konsisten memiliki kinerja yang lebih buruk dibandingkan versi baru, hal ini mencerminkan penurunan yang berkaitan dengan usia manusia.
Keterbatasan Studi
Pertama, kemampuan AI berkembang pesat, sehingga versi yang lebih baru mungkin memiliki performa yang lebih baik dalam pengujian ini. Selain itu, membandingkan kognisi AI dengan kognisi manusia mungkin seperti membandingkan apel dengan jeruk digital – cara “berpikir” sistem AI pada dasarnya berbeda dari otak manusia. Para peneliti juga harus mengadaptasi beberapa tes untuk bekerja dengan antarmuka berbasis teks AI, yang mungkin mempengaruhi hasilnya.
Diskusi & Kesimpulan
Studi tersebut menunjukkan bahwa sistem AI saat ini, meskipun kinerjanya mengesankan dalam pemeriksaan medis, memiliki keterbatasan yang signifikan dalam memproses informasi visual dan menangani tugas-tugas yang memerlukan fungsi visual dan eksekutif. Hal ini dapat mempunyai implikasi penting terhadap peran AI dalam diagnosis medis dan pengambilan keputusan. Penelitian ini juga menimbulkan pertanyaan menarik tentang bagaimana kami mengevaluasi kemampuan AI dan apakah metode pengujian yang berpusat pada manusia sesuai untuk kecerdasan buatan.
Pendanaan & Pengungkapan
Penelitian ini dilakukan tanpa pendanaan eksternal, dan para peneliti menyatakan tidak ada kepentingan yang bersaing. Semua penulis melengkapi formulir pengungkapan seragam Komite Internasional Editor Jurnal Medis dan mengonfirmasi bahwa mereka tidak memiliki hubungan keuangan dengan organisasi mana pun yang mungkin berkepentingan dengan karya yang dikirimkan.
Detail Publikasi
Studi ini dipublikasikan di BMJ (sebelumnya dikenal sebagai British Medical Journal) pada tanggal 18 Desember 2024. Artikel penelitian tersebut berjudul “Age Against the Machine—susceptibility of large Language Models to Cognitive Impairment: Cross Sectional Analysis” dan dapat ditemukan menggunakan Digital Object Identifier (DOI). ): 10.1136/bmj-2024-081948. Makalah ini diklasifikasikan sebagai penelitian observasional yang meneliti model bahasa besar dalam analisis cross-sectional.
Meskipun klasifikasi subjek dalam makalah ini menunjukkan “Manusia”, perlu dicatat bahwa klasifikasi ini mengacu pada alat penilaian medis/kognitif yang biasanya digunakan pada subjek manusia yang diterapkan pada model AI. Penelitian ini dilakukan oleh para peneliti dari Departemen Neurologi di Hadassah Medical Center dan Fakultas Kedokteran di Universitas Ibrani di Yerusalem, Israel, bersama dengan kolaborator dari QuantumBlack Analytics di London dan Fakultas Kedokteran Universitas Tel Aviv.