BINGHAMTON, NY — “Terbitkan atau musnah” telah lama menjadi mantra akademis. Namun, apa yang terjadi jika publikasi tidak ditulis oleh profesor yang sekarat, tetapi oleh AI yang terus-menerus produktif? Saat kecerdasan buatan mulai masuk ke dalam penulisan ilmiah, seorang peneliti melawan balik dengan alat yang dapat mengubah permainan.
Model bahasa besar seperti ChatGPT terus menjadi semakin canggih, dan ada kekhawatiran yang berkembang tentang potensi penyalahgunaannya di kalangan akademis dan ilmiah. Model-model ini dapat menghasilkan teks yang meniru tulisan manusia, sehingga menimbulkan kekhawatiran tentang integritas literatur ilmiah. Sekarang, Ahmed Abdeen Hamed, seorang peneliti tamu di Universitas Binghamton, telah mengembangkan algoritma inovatif yang mungkin menjadi peluru ajaib dalam permainan berisiko tinggi tentang keaslian akademis ini.
Ciptaan Hamed, yang diberi nama xFakeSci, bukan sekadar alat deteksi biasa. Ini adalah algoritma pembelajaran mesin canggih yang dapat mengendus dokumen yang dihasilkan AI dengan akurasi yang mencengangkan hingga 94%. Ini bukan sekadar peningkatan marjinal; ini adalah lompatan kuantum, yang hampir menggandakan tingkat keberhasilan teknik penambangan data konvensional.
“Penelitian utama saya adalah informatika biomedis, tetapi karena saya bekerja dengan publikasi medis, uji klinis, sumber daya daring, dan penambangan media sosial, saya selalu khawatir tentang keaslian pengetahuan yang disebarkan seseorang,” jelas Hamed dalam sebuah pernyataan.
Kekhawatirannya bukan tanpa alasan. Pandemi global baru-baru ini menyebabkan lonjakan penelitian palsu, terutama dalam artikel biomedis, yang menyoroti kebutuhan mendesak akan metode verifikasi yang kuat.
Dalam sebuah penelitian yang diterbitkan di Laporan IlmiahHamed dan kolaboratornya, Profesor Xindong Wu dari Universitas Teknologi Hefei di Tiongkok, menguji xFakeSci. Mereka membuat tempat uji coba yang terdiri dari 150 artikel palsu menggunakan ChatGPT, yang didistribusikan secara merata pada tiga topik medis yang sedang hangat dibicarakan: Alzheimer, kanker, dan depresi. Makalah yang dihasilkan AI ini kemudian dibandingkan dengan sejumlah artikel asli tentang subjek yang sama.
Algoritma ini mengungkap pola-pola khas yang membedakan konten yang dihasilkan AI dari makalah yang ditulis manusia. Salah satu perbedaan utama terletak pada penggunaan gambar besar – pasangan kata yang sering muncul bersamaan, seperti “uji klinis” atau “literatur biomedis.” Anehnya, makalah yang dihasilkan AI berisi lebih sedikit bigram yang unik tetapi menggunakannya lebih luas di seluruh teks.
“Hal pertama yang mencolok adalah jumlah bigram sangat sedikit di dunia palsu, tetapi di dunia nyata, bigram jauh lebih banyak,” catat Hamed. “Juga, di dunia palsu, meskipun jumlah bigram sangat sedikit, bigram sangat terhubung dengan hal-hal lainnya.”
Pola ini, menurut teori para peneliti, berasal dari perbedaan mendasar dalam tujuan model AI dan ilmuwan manusia. Sementara ChatGPT bertujuan untuk menghasilkan teks yang meyakinkan tentang topik tertentu, ilmuwan sungguhan berfokus pada pelaporan metode dan hasil eksperimen mereka secara akurat.
“Karena ChatGPT masih terbatas dalam pengetahuannya, ChatGPT mencoba meyakinkan Anda dengan menggunakan kata-kata yang paling penting,” jelas Hamed. “Bukan tugas seorang ilmuwan untuk memberikan argumen yang meyakinkan kepada Anda. Sebuah makalah penelitian yang sebenarnya melaporkan secara jujur tentang apa yang terjadi selama sebuah eksperimen dan metode yang digunakan. ChatGPT berfokus pada kedalaman pada satu titik, sedangkan sains yang sebenarnya berfokus pada keluasan.”
Penulis studi memperingatkan bahwa seiring dengan semakin canggihnya model bahasa AI, batasan antara literatur ilmiah asli dan palsu dapat semakin kabur. Alat seperti xFakeSci dapat menjadi penjaga gerbang penting, membantu menjaga integritas publikasi ilmiah di era konten yang dihasilkan AI di mana-mana.
Namun, Hamed tetap optimis dengan penuh kehati-hatian. Meskipun bangga dengan tingkat deteksi xFakeSci yang mengesankan, yakni 94%, ia segera menunjukkan bahwa hal ini masih perlu ditingkatkan.
“Kita perlu rendah hati tentang apa yang telah kita capai. Kita telah melakukan sesuatu yang sangat penting dengan meningkatkan kesadaran,” catat peneliti tersebut, sambil mengakui bahwa enam dari 100 makalah palsu masih lolos dari jaring.
Ke depannya, Hamed berencana untuk memperluas kemampuan xFakeSci di luar bidang kedokteran, merambah ke ranah ilmiah lain dan bahkan humaniora. Tujuan utamanya? Algoritme universal yang mampu mendeteksi konten yang dihasilkan AI di semua bidang — terlepas dari model AI yang digunakan untuk membuatnya.
Sementara itu, satu hal yang jelas: pertempuran melawan sains palsu yang dihasilkan AI baru saja dimulai. Namun, dengan perangkat seperti xFakeSci, komunitas ilmiah lebih siap menghadapi tantangan ini secara langsung, memastikan bahwa pencarian pengetahuan tetap berada di tangan manusia.
Ringkasan Makalah
Metodologi
Para peneliti menggunakan pendekatan bercabang dua dalam studi mereka. Pertama, mereka menggunakan ChatGPT untuk menghasilkan 150 abstrak ilmiah palsu, yang didistribusikan secara merata di tiga topik medis: Alzheimer, kanker, dan depresi. Abstrak yang dihasilkan AI ini kemudian dibandingkan dengan sejumlah abstrak ilmiah asli dari PubMed pada topik yang sama.
Algoritme xFakeSci dikembangkan untuk menganalisis teks-teks ini, dengan fokus pada dua fitur utama: frekuensi dan distribusi bigram (pasangan kata yang sering muncul bersamaan) dan bagaimana bigram ini terhubung dengan kata-kata dan konsep lain dalam teks. Algoritme ini menggunakan teknik pembelajaran mesin untuk mengidentifikasi pola yang membedakan teks yang dihasilkan AI dari artikel ilmiah yang ditulis manusia.
Hasil Utama
Studi ini mengungkap perbedaan signifikan antara artikel ilmiah yang dibuat oleh AI dan yang ditulis oleh manusia. Teks yang dibuat oleh AI cenderung memiliki lebih sedikit bigram unik tetapi menggunakannya secara lebih ekstensif di seluruh dokumen. Algoritme xFakeSci menunjukkan tingkat akurasi yang mengesankan hingga 94% dalam mengidentifikasi sains palsu yang dibuat oleh AI, jauh lebih unggul daripada metode analisis data tradisional, yang biasanya mencapai tingkat akurasi antara 38% dan 52%.
Keterbatasan Studi
Penelitian ini terutama difokuskan pada abstrak ilmiah, bukan artikel lengkap, yang mungkin menunjukkan pola yang berbeda. Konten yang dihasilkan AI dibuat menggunakan versi ChatGPT tertentu, dan hasilnya dapat bervariasi dengan model AI yang berbeda atau seiring dengan perkembangan model tersebut.
Selain itu, penelitian ini saat ini hanya mencakup tiga topik medis, dan penerapannya pada bidang ilmiah lainnya masih harus diuji. Para peneliti juga mengakui bahwa meskipun akurasinya tinggi, xFakeSci masih gagal mendeteksi 6% makalah palsu, yang menunjukkan masih ada ruang untuk perbaikan.
Diskusi & Kesimpulan
Studi ini menyoroti tantangan yang semakin besar dalam menjaga integritas ilmiah di era model bahasa AI yang canggih. Studi ini menunjukkan bahwa perangkat seperti xFakeSci dapat memainkan peran penting dalam proses penerbitan ilmiah, membantu menyaring sains palsu yang dihasilkan AI. Para peneliti menekankan perlunya pengembangan berkelanjutan dari perangkat tersebut untuk mengimbangi perkembangan kemampuan AI. Mereka juga menekankan pentingnya meningkatkan kesadaran tentang masalah ini di komunitas ilmiah dan menyerukan pengembangan pedoman dan kebijakan etika terkait penggunaan AI dalam penulisan dan penerbitan ilmiah.
Pendanaan & Pengungkapan
Penelitian ini didukung oleh program penelitian dan inovasi Horizon 2020 Uni Eropa, Yayasan Ilmu Pengetahuan Polandia, Dana Pembangunan Daerah Eropa, dan Yayasan Ilmu Pengetahuan Alam Nasional Tiongkok. Para penulis menyatakan tidak ada konflik kepentingan. Pekerjaan Ahmed Abdeen Hamed dilakukan sebagai bagian dari Laboratorium Sistem Adaptif Kompleks dan Kecerdasan Komputasional di Universitas Binghamton, di bawah pengawasan Profesor Ilmu Sistem George J. Klir Luis M. Rocha.