

(Kredit: Hamara/Shutterstock)
PULLMAN, Cuci.— Ketika kecerdasan buatan terus menjadi berita utama, satu pertanyaan mendesak muncul: Bisakah chatbot AI seperti ChatGPT membantu atau berpotensi menggantikan profesional keuangan? Sebuah studi baru yang dilakukan oleh para peneliti di Washington State University dan Clemson University, yang menganalisis lebih dari 10.000 respons AI terhadap pertanyaan ujian keuangan, memberikan beberapa jawaban yang mengejutkan.
“Masih terlalu dini untuk khawatir ChatGPT mengambil alih pekerjaan keuangan sepenuhnya,” kata penulis studi DJ Fairhurst dari Carson College of Business WSU dalam sebuah pernyataan. “Untuk konsep-konsep luas yang sudah lama ada penjelasan bagus di internet, ChatGPT dapat melakukan pekerjaan yang sangat baik dalam mensintesis konsep-konsep tersebut. Jika ini adalah masalah yang spesifik dan unik, maka akan sangat sulit.”
Penelitian yang dipublikasikan di Jurnal Analis Keuanganmengatasi kekhawatiran industri yang signifikan. Goldman Sachs memperkirakan bahwa 15% hingga 35% pekerjaan di bidang keuangan berpotensi diotomatisasi oleh AI, sementara KPMG berpendapat bahwa AI generatif dapat merevolusi cara kerja manajer aset dan kekayaan. Namun, proyeksi ini bergantung pada asumsi penting – bahwa sistem AI memiliki pemahaman yang memadai mengenai keuangan.
“Lulus ujian sertifikasi saja tidak cukup. Kami benar-benar perlu menggali lebih dalam untuk mendapatkan apa yang sebenarnya bisa dilakukan oleh model ini,” kata Fairhurst.
Para peneliti mengumpulkan kumpulan data komprehensif yang terdiri dari 1.083 pertanyaan pilihan ganda yang diambil dari berbagai ujian perizinan keuangan, termasuk ujian Securities Industry Essentials (SIE) dan ujian Seri 7, 6, 65, dan 66. Ini adalah ujian yang sama yang harus dilalui oleh para profesional keuangan untuk mendapatkan lisensi. Saat ini, sekitar 42.000 orang menjadi perwakilan terdaftar setiap tahunnya, dan lebih dari 600.000 orang bekerja di industri sekuritas.
Dengan menggunakan bank soal ini, penelitian ini menguji empat model AI yang berbeda: Bard Google, LLaMA Meta, dan dua versi ChatGPT OpenAI (versi 3.5 dan 4). Para peneliti tidak hanya mengevaluasi keakuratan jawaban tetapi juga menggunakan teknik pemrosesan bahasa alami yang canggih untuk membandingkan seberapa baik sistem AI dapat menjelaskan alasan mereka dibandingkan dengan penjelasan yang ditulis oleh para ahli.


Hasilnya menunjukkan adanya trade-off yang berbeda di antara model-model AI. Dari semua model yang diuji, ChatGPT 4 muncul sebagai model terdepan, dengan tingkat akurasi 18 hingga 28 poin persentase lebih tinggi dibandingkan model lainnya. Namun, perkembangan menarik muncul ketika para peneliti menyempurnakan versi gratis ChatGPT 3.5 sebelumnya dengan memberikan contoh tanggapan dan penjelasan yang benar. Setelah penyetelan ini, keakuratannya hampir menyamai ChatGPT 4 dan bahkan melampauinya dalam memberikan jawaban yang mirip dengan jawaban manusia profesional.
Kedua model tersebut masih menunjukkan keterbatasan yang signifikan. Meskipun kinerja mereka baik pada pertanyaan tentang perdagangan, akun pelanggan, dan aktivitas terlarang (akurasi 73,4%), kinerja turun menjadi 56,6% pada pertanyaan tentang evaluasi profil keuangan klien dan tujuan investasi. Model tersebut memberikan jawaban yang lebih tidak akurat untuk situasi khusus, seperti menentukan cakupan asuransi klien dan status pajak.
Tim peneliti tidak berhenti pada soal-soal ujian. Mereka kini mencari cara lain untuk menguji kemampuan ChatGPT, termasuk proyek yang memintanya mengevaluasi potensi kesepakatan merger. Memanfaatkan batas waktu pelatihan awal ChatGPT pada bulan September 2021, mereka mengujinya berdasarkan hasil kesepakatan yang diketahui yang dibuat setelah tanggal tersebut. Temuan awal menunjukkan bahwa model AI kesulitan mengatasi tugas yang lebih kompleks ini.
Keterbatasan ini mempunyai implikasi penting bagi industri keuangan, khususnya mengenai posisi entry level.
“Praktik mengangkat sekelompok orang sebagai analis junior, membiarkan mereka bersaing dan mempertahankan pemenang – hal ini menjadi jauh lebih mahal,” jelas Fairhurst. “Jadi hal ini mungkin berarti penurunan pada jenis pekerjaan tersebut, namun hal ini bukan karena ChatGPT lebih baik dibandingkan para analis, melainkan karena kami telah meminta analis junior untuk melakukan tugas-tugas yang lebih rendah.”
Berdasarkan temuan ini, masa depan AI di bidang keuangan tampaknya bersifat kolaboratif, bukan replacif. Meskipun sistem ini menunjukkan kemampuan yang mengesankan dalam merangkum informasi dan menangani tugas analitis rutin, tingkat kesalahannya – terutama dalam situasi kompleks yang dihadapi klien – menunjukkan bahwa pengawasan manusia tetap penting dalam industri di mana kesalahan dapat menimbulkan konsekuensi finansial dan hukum yang serius.
Ringkasan Makalah
Metodologi
Para peneliti menganalisis lebih dari 10,000 tanggapan dari empat model AI yang berbeda (Bard, LLaMA, ChatGPT 3.5, dan ChatGPT 4) terhadap 1,083 soal ujian perizinan keuangan. Setiap pertanyaan diuji pada berbagai model dan konfigurasi, sehingga menghasilkan kumpulan data yang komprehensif. Tim mengevaluasi dua aspek utama: apakah AI memilih jawaban yang benar dan seberapa baik AI menjelaskan alasannya dibandingkan dengan penjelasan para ahli. Mereka menggunakan teknik pemrosesan bahasa alami yang canggih (khususnya model BERT) untuk mengukur seberapa mirip penjelasan AI dengan penjelasan yang ditulis oleh para ahli.
Selain itu, mereka memetakan pertanyaan-pertanyaan tersebut ke 51 tugas pekerjaan keuangan dunia nyata menggunakan data dari Jaringan Informasi Pekerjaan (O*NET) Departemen Tenaga Kerja AS untuk memahami penerapan praktisnya. Studi ini juga mengeksplorasi berbagai cara menggunakan sistem AI, termasuk antarmuka web, akses API dengan berbagai pengaturan, dan model yang dilatih secara khusus (disesuaikan).
Hasil Utama
ChatGPT 4 muncul sebagai yang berkinerja terbaik, menjawab 84,5% pertanyaan dengan benar – jauh lebih baik 18-28 poin persentase dibandingkan model gratis. Ketika para peneliti menyempurnakan ChatGPT 3.5 dengan melatihnya pada konten keuangan tertentu, akurasinya hampir menyamai ChatGPT 4 dan bahkan melampauinya dalam kualitas penjelasan. AI memiliki kinerja terbaik pada pertanyaan tentang perdagangan dan operasi pasar (akurasi 73,4%) tetapi kesulitan dengan tugas khusus klien seperti perencanaan keuangan dan analisis pajak (akurasi turun menjadi 56,6%). Menariknya, baik AI maupun manusia yang melakukan tes cenderung kesulitan dengan pertanyaan-pertanyaan menantang yang sama, hal ini menunjukkan adanya keterbatasan mendasar dalam menangani konsep keuangan yang kompleks.
Keterbatasan Studi
Studi ini terutama menggunakan soal-soal ujian perizinan tingkat awal, yang mungkin tidak sepenuhnya menangkap kompleksitas pekerjaan keuangan di dunia nyata. Beberapa pertanyaan tes tersedia online, sehingga berpotensi meningkatkan kinerja AI hingga 13% untuk pertanyaan-pertanyaan ini. Penelitian ini dilakukan pada akhir tahun 2023 dan awal tahun 2024, dan mengingat pesatnya perkembangan AI, hasilnya mungkin berubah dengan versi yang lebih baru. Selain itu, soal ujian tidak menguji aspek penting pekerjaan keuangan, seperti keterampilan menulis, komunikasi, dan berpikir kreatif.
Diskusi & Kesimpulan
Penelitian menunjukkan bahwa AI saat ini lebih cocok sebagai asisten dibandingkan pengganti profesional keuangan. Meskipun alat ini menjanjikan dalam tugas-tugas seperti pemantauan pasar dan analisis dasar, alat ini masih kurang dapat diandalkan untuk pekerjaan yang kompleks dan spesifik untuk klien. Studi ini mengungkap trade-off penting antara berbagai model AI dan metode penerapannya. Penyempurnaan dapat meningkatkan kinerja secara signifikan, namun model paling canggih sekalipun masih membuat kesalahan yang dapat merugikan dalam aplikasi dunia nyata. Temuan ini juga menunjukkan potensi perubahan dalam pekerjaan keuangan tingkat pemula, khususnya bagi analis junior yang melakukan tugas-tugas rutin.
Pendanaan & Pengungkapan
Penelitian ini didukung oleh data dari Achievable dan Knopman Marks, dua perusahaan persiapan ujian keuangan. Penghargaan khusus diberikan kepada Justin Pincar di Achievable dan Brian Marks di Knopman Marks. Penelitian ini juga memanfaatkan masukan dari peserta seminar di Washington State University dan Clemson University. Para penulis melaporkan tidak ada konflik kepentingan, dan penelitian ini menerima tinjauan sejawat sebelum dipublikasikan di Jurnal Analis Keuangan.
Detail Publikasi
Studi ini dipublikasikan di Jurnal Analis Keuangan pada tanggal 18 November 2024. Artikel berjudul “Seberapa Banyak Pengetahuan ChatGPT tentang Keuangan?” dapat diakses menggunakan Digital Object Identifier (DOI): 10.1080/0015198X.2024.2411941. Penelitian ini ditulis oleh Douglas (DJ) Fairhurst, seorang profesor keuangan di Carson College of Business, Washington State University, dan Daniel Greene, Bill Short Associate Professor of Finance di Wilbur O. dan Ann Powers College of Business, Clemson University . Artikel ini memperoleh 2,0 Kredit PL dan menjalani tinjauan sejawat sebelum dipublikasikan. Korespondensi mengenai penelitian ini dapat diarahkan ke Douglas (DJ) Fairhurst di [email protected].