

(© BiancoBlue | Dreamstime.com)
Pendeknya
- Ketika dokter AI harus mendiagnosis melalui percakapan dibandingkan tes pilihan ganda, keakuratannya menurun drastis – dari 82% menjadi 26% dalam beberapa kasus.
- Sistem AI saat ini kesulitan dengan keterampilan klinis dasar seperti mengajukan pertanyaan tindak lanjut yang tepat dan mensintesis informasi dari berbagai pertukaran
- Temuan ini menunjukkan bahwa alat AI sebaiknya melengkapi, bukan menggantikan dokter manusia, karena alat tersebut belum siap untuk berinteraksi secara independen dengan pasien
BOSTON — Kecerdasan buatan telah menunjukkan harapan yang luar biasa dalam bidang kesehatan, mulai dari membaca sinar-X hingga menyarankan rencana pengobatan. Namun ketika berbicara dengan pasien dan membuat diagnosis akurat melalui percakapan – yang merupakan landasan praktik medis – AI masih memiliki keterbatasan yang signifikan, menurut penelitian baru dari Harvard Medical School dan Stanford University.
Diterbitkan di Pengobatan Alampenelitian ini memperkenalkan kerangka pengujian inovatif yang disebut CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) untuk mengevaluasi seberapa baik kinerja model bahasa besar (LLM) dalam simulasi interaksi dokter-pasien. Ketika pasien semakin banyak yang beralih ke alat AI seperti ChatGPT untuk menafsirkan gejala dan hasil tes medis, memahami kemampuan sistem ini di dunia nyata menjadi sangat penting.
“Pekerjaan kami mengungkap sebuah paradoks yang mencolok – meskipun model AI ini unggul dalam ujian dewan medis, mereka kesulitan dengan hal-hal dasar yang harus dilakukan saat mengunjungi dokter,” jelas penulis senior studi Pranav Rajpurkar, asisten profesor informatika biomedis di Harvard Medical School . “Sifat percakapan medis yang dinamis – kebutuhan untuk mengajukan pertanyaan yang tepat pada waktu yang tepat, mengumpulkan informasi yang tersebar, dan mempertimbangkan gejala – menimbulkan tantangan unik yang lebih dari sekadar menjawab pertanyaan pilihan ganda.”
Tim peneliti, yang dipimpin oleh penulis senior Rajpurkar dan Roxana Daneshjou dari Universitas Stanford, mengevaluasi empat model AI terkemuka di 2.000 kasus medis yang mencakup 12 spesialisasi. Metode evaluasi saat ini biasanya mengandalkan soal-soal pemeriksaan kesehatan pilihan ganda, yang menyajikan informasi dalam format terstruktur. Namun, rekan penulis studi Shreya Johri mencatat bahwa “di dunia nyata proses ini jauh lebih berantakan.”
Pengujian yang dilakukan melalui CRAFT-MD mengungkapkan perbedaan kinerja yang mencolok antara evaluasi tradisional dan skenario yang lebih realistis. Dalam pertanyaan pilihan ganda (MCQ) empat pilihan, akurasi diagnostik GPT-4 turun dari 82% saat membaca ringkasan kasus yang telah disiapkan menjadi 63% saat mengumpulkan informasi melalui dialog. Penurunan ini menjadi lebih nyata dalam skenario terbuka tanpa pilihan ganda, di mana akurasi turun menjadi 49% dengan ringkasan tertulis dan 26% selama simulasi wawancara pasien.
Model AI menunjukkan kesulitan khusus dalam mensintesis informasi dari berbagai pertukaran percakapan. Masalah yang umum terjadi adalah hilangnya rincian penting selama anamnesis pasien, kegagalan dalam menanyakan pertanyaan tindak lanjut yang tepat, dan kesulitan dalam mengintegrasikan berbagai jenis informasi, seperti menggabungkan data visual dari gambar medis dengan gejala yang dilaporkan pasien.
Efisiensi CRAFT-MD menyoroti keuntungan lain dari kerangka kerja ini: ia dapat memproses 10.000 percakapan dalam 48-72 jam, ditambah 15-16 jam evaluasi ahli. Evaluasi tradisional berbasis manusia memerlukan perekrutan ekstensif dan sekitar 500 jam untuk simulasi pasien dan 650 jam untuk penilaian ahli.
“Sebagai ilmuwan dokter, saya tertarik pada model AI yang dapat meningkatkan praktik klinis secara efektif dan etis,” kata Daneshjou, asisten profesor Ilmu Data Biomedis dan Dermatologi di Universitas Stanford. “CRAFT-MD menciptakan kerangka kerja yang lebih mencerminkan interaksi di dunia nyata sehingga membantu memajukan bidang ini dalam hal pengujian kinerja model AI dalam layanan kesehatan.”
Berdasarkan temuan ini, para peneliti memberikan rekomendasi komprehensif untuk pengembangan dan regulasi AI. Hal ini mencakup pembuatan model yang mampu menangani percakapan tidak terstruktur, integrasi berbagai tipe data yang lebih baik (teks, gambar, dan pengukuran klinis), dan kemampuan untuk menafsirkan isyarat komunikasi non-verbal. Mereka juga menekankan pentingnya menggabungkan evaluasi berbasis AI dengan penilaian ahli manusia untuk memastikan pengujian menyeluruh sekaligus menghindari paparan dini pasien sebenarnya terhadap sistem yang belum terverifikasi.
Studi ini menunjukkan bahwa meskipun AI menjanjikan dalam layanan kesehatan, sistem yang ada saat ini memerlukan kemajuan yang signifikan agar dapat terlibat dalam interaksi dokter-pasien yang kompleks dan dinamis. Untuk saat ini, alat-alat ini mungkin berfungsi sebagai pelengkap, bukan pengganti, keahlian medis manusia.
Ringkasan Makalah
Metodologi
Para peneliti menciptakan sistem pengujian yang canggih di mana satu AI bertindak sebagai pasien (memberikan informasi berdasarkan kasus medis nyata) sementara AI lainnya berperan sebagai dokter (mengajukan pertanyaan dan membuat diagnosis). Pakar medis meninjau interaksi ini untuk memastikan kualitas dan akurasi. Penelitian ini mencakup 2.000 kasus di berbagai spesialisasi medis dan menguji berbagai format: ringkasan kasus tertulis tradisional, percakapan bolak-balik, diagnosis satu pertanyaan, dan ringkasan percakapan. Mereka juga menguji skenario dengan dan tanpa pilihan ganda untuk diagnosis.
Hasil
Temuan utamanya adalah performa AI turun secara signifikan saat beralih dari ringkasan tertulis ke diagnosis percakapan. Dengan opsi pilihan ganda, akurasi turun dari 82% menjadi 63% untuk GPT-4. Tanpa pilihan ganda, akurasi menurun drastis – menjadi 26% untuk diagnosis percakapan. AI juga kesulitan dalam mensintesis informasi dari berbagai pertukaran dan mengetahui kapan harus berhenti mengumpulkan informasi.
Keterbatasan
Penelitian ini terutama menggunakan simulasi interaksi pasien dibandingkan pasien sebenarnya, yang mungkin tidak sepenuhnya menangkap kompleksitas pertemuan klinis sebenarnya. Penelitian ini juga berfokus terutama pada keakuratan diagnostik daripada aspek penting lainnya dari perawatan medis seperti sikap di samping tempat tidur atau dukungan emosional. Selain itu, penelitian ini menggunakan AI untuk mensimulasikan respons pasien, yang mungkin tidak sepenuhnya mencerminkan cara pasien berkomunikasi.
Diskusi dan Kesimpulan
Penelitian menunjukkan bahwa model AI saat ini, meskipun mengesankan dalam tugas-tugas terstruktur tertentu, belum siap untuk interaksi pasien secara mandiri. Temuan ini menunjukkan bahwa AI mungkin lebih efektif digunakan sebagai alat pendukung bagi dokter manusia dibandingkan sebagai penggantinya. Studi ini juga menyoroti pentingnya mengembangkan sistem AI yang dapat menangani percakapan dinamis dan sintesis informasi dengan lebih baik.
Pendanaan dan Pengungkapan
Penelitian ini mendapat dukungan dari HMS Dean's Innovation Award dan hibah Microsoft's Accelerate Foundation Models Research yang diberikan kepada Pranav Rajpurkar. Pendanaan tambahan datang melalui IIE Quad Fellowship. Beberapa peneliti mengungkapkan hubungan industri, termasuk peran konsultasi Daneshjou dengan DWA, Pfizer, L'Oreal, dan VisualDx, serta opsi saham di perusahaan teknologi medis. Pengungkapan lainnya mencakup paten yang menunggu keputusan dan berbagai posisi penasihat dan ekuitas yang dipegang oleh anggota tim di perusahaan perawatan kesehatan.
Informasi Publikasi
Penelitian ini dipublikasikan di Nature Medicine (DOI: 10.1038/s41591-024-03328-5) sebagai “An Evaluation Framework for Conversational Reasoning in Clinical LLMs While Patient Interactions” oleh para peneliti dari Harvard Medical School, Stanford University, dan institusi medis terkemuka lainnya. .