AI Bot ChatGPT Lulus Ujian Lisensi Medis AS

ChatGPT dapat lulus bagian dari ujian lisensi medis AS, demikian temuan para peneliti, menimbulkan pertanyaan tentang apakah chatbot AI suatu hari nanti dapat membantu menulis ujian atau membantu siswa mempersiapkannya.

Victor Tseng, MD, dan rekan-rekannya di Ansible Health, sebuah perusahaan yang mengelola sebagian besar pasien yang tinggal di rumah dengan penyakit paru-paru kronis, awalnya ingin melihat apakah ChatGPT dapat mengumpulkan semua komunikasi mengenai pasien ini, yang akan memungkinkan Ansible mengoordinasikan perawatan dengan lebih baik.

“Tentu saja, kami bertanya-tanya bagaimana ChatGPT dapat meningkatkan perawatan pasien,” kata Tseng, wakil presiden dan direktur medis Ansible, kepada Medscape. Sekelompok sukarelawan di perusahaan memutuskan untuk menguji kemampuannya dengan mengajukan pertanyaan pilihan ganda dari US Medical Licensing Examination (USMLE), mengingat begitu banyak dari mereka telah mengikuti ujian lisensi medis.

“Hasilnya sangat mengejutkan kami sehingga kami bergegas mengubahnya menjadi publikasi,” kata Tseng. Hasilnya dipublikasikan sebagai pracetak di medRxiv. Mereka sangat terkesan sehingga mengizinkan ChatGPT untuk berkolaborasi sebagai penulis kontribusi.

ChatGPT menulis bagian abstrak dan hasil “dengan dorongan minimal dan sebagian besar penyesuaian kosmetik dari rekan penulis,” kata Tseng. Bot juga menyumbangkan sebagian besar bagian pengenalan dan metode. Para penulis “sering memintanya untuk mensintesis, menyederhanakan, dan menawarkan tandingan untuk draf yang sedang berjalan,” kata Tseng. Dia menyamakannya dengan bagaimana rekan penulis dapat berinteraksi melalui email. Namun, mereka memutuskan tidak akan mengkredit ChatGPT sebagai penulis.

Artikel tersebut telah diterima di jurnal peer-review PLOS Digital Health dan akan segera diterbitkan, kata Tseng kepada Medscape.

Alex Mechaber, MD, wakil presiden Program USMLE di National Board of Medical Examiners (NBME), mengatakan bahwa organisasi tersebut tidak terkejut dengan hasil penelitian tersebut, “sebagian karena bahan input yang digunakan untuk ChatGPT sebagian besar mewakili pengetahuan medis. .” AI kemungkinan besar akan berhasil dengan pertanyaan jenis pilihan ganda, kata Mechaber kepada Medscape.

OpenAI yang berbasis di San Francisco mengembangkan ChatGPT, model bahasa besar. Raksasa teknologi Microsoft menganggap aplikasi ChatGPT dan OpenAI lainnya sangat menjanjikan sehingga telah menginvestasikan $3 miliar dan dilaporkan siap untuk memasukkan $10 miliar lagi ke perusahaan.

Algoritme ChatGPT “dilatih untuk memprediksi kemungkinan urutan kata tertentu berdasarkan konteks kata yang muncul sebelumnya.” Secara teoritis, itu “mampu menghasilkan urutan kata-kata baru yang tidak pernah diamati sebelumnya oleh model, tetapi itu mewakili urutan yang masuk akal berdasarkan bahasa alami manusia,” menurut Tseng dan rekan penulisnya.

Dirilis ke publik pada November 2022, ChatGPT telah digunakan untuk menulis segala sesuatu mulai dari puisi cinta hingga makalah sejarah sekolah menengah hingga konten editorial situs web. Bot menggunakan penyimpanan data yang mencakup semua yang telah diunggah ke internet hingga tahun 2021.

Tseng dan rekannya menguji ChatGPT pada ratusan pertanyaan pilihan ganda yang tercakup dalam tiga langkah ujian USMLE.

Untuk setiap langkah, para peneliti mendorong chatbot dengan tiga cara. Pertama, diberikan tanda dan gejala pasien teoretis dan diminta untuk menjelaskan apa yang mungkin menjadi penyebab atau diagnosis yang mendasarinya.

Selanjutnya, setelah ChatGPT disegarkan untuk menghilangkan potensi bias dari informasi yang disimpan dari latihan sebelumnya, diberikan pertanyaan dari ujian dan diminta untuk memilih jawaban. Setelah menyegarkan kembali ChatGPT, peneliti memintanya untuk “tolong jelaskan mengapa jawaban yang benar itu benar dan mengapa jawaban yang salah itu salah.”

Jawabannya ditinjau dan dinilai oleh tiga dokter bersertifikat dan berlisensi.

Untuk format terbuka, akurasi ChatGPT untuk Langkah 1 berkisar dari 43% saat jawaban “tidak pasti” disertakan dalam analisis hingga 68% saat respons tersebut dikecualikan. Jawaban tak tentu adalah salah satu di mana chatbot memberikan tanggapan yang tidak tersedia di antara beberapa pilihan yang disajikan atau mengatakan tidak bisa berkomitmen untuk jawaban. Untuk Langkah 2, tingkat kelulusan adalah 51%/58%, dan untuk Langkah 3 adalah 56%/62%.

Saat mengajukan pertanyaan verbatim, akurasi ChatGPT adalah 36/55% untuk Langkah 1, 57%/59% untuk Langkah 2CK, dan 55%/61% untuk Langkah 3. Saat diminta untuk membenarkan jawabannya, tingkat akurasinya adalah 40%/ 62% untuk Langkah 1, 49%/51% untuk Langkah 2, dan 60%/65% untuk Langkah 3.

Tingkat kelulusan siswa bervariasi menurut apakah itu ujian pertama atau ujian ulangan dan apakah peserta ujian berasal dari Amerika Serikat atau negara lain. Pada tahun 2021, untuk Langkah 1, tingkat kelulusan berkisar dari yang terendah 45% untuk repeater hingga tertinggi 96%. Untuk Langkah 2, kisarannya adalah 62% hingga 99%, dan untuk Langkah 3, kisarannya adalah 62% hingga 98%.

“Yang menarik adalah pada Langkah 2 dan 3, yang lebih maju secara klinis, hanya sekitar 10% dari [ChatGPT’s] tanggapan tidak pasti,” kata Tseng.

Bot Tidak Diuji pada Bagian Penting Ujian

Mechaber USMLE mencatat bahwa ChatGPT hanya diberi contoh pertanyaan, bukan tes latihan yang sebenarnya. Dan itu tidak mencoba pertanyaan yang menggunakan gambar atau suara atau studi simulasi komputer berbasis kasus yang diberikan pada Langkah 3, katanya.

Tseng menyarankan dalam artikelnya bahwa ChatGPT berpotensi digunakan sebagai bantuan belajar bagi siswa yang sedang mempersiapkan USMLE atau untuk menulis pertanyaan untuk ujian.

“Kami sedang memikirkan itu,” kata Mechaber tentang penggunaannya sebagai alat belajar. Tapi karena ChatGPT masih menghasilkan begitu banyak jawaban yang salah, teknologinya kemungkinan besar belum siap untuk prime time, katanya. Mengenai apakah ChatGPT dapat menulis pertanyaan tes, NBME telah menunjukkan minat pada “pembuatan item otomatis”, katanya.

“Kami sedang menyelidiki [ChatGPT] dengan kegembiraan dan keingintahuan” untuk potensi penggunaannya dalam pengobatan, kata Mechaber.

Chatbot Mengatakan USMLE Akan Tetap Ada

Anggota staf NBME memutuskan untuk menanyakan ChatGPT tentang apakah itu ancaman bagi USMLE. Bot tersebut mengatakan bahwa meskipun itu adalah “alat yang ampuh untuk pemrosesan bahasa alami,” itu “bukan ancaman bagi Pemeriksaan Lisensi Medis Amerika Serikat (USMLE).”

Dalam tanggapan yang panjang, bot menambahkan, “ChatGPT, meski mengesankan dalam kemampuannya menghasilkan teks seperti manusia, tidak dirancang khusus untuk menguji pengetahuan medis dan bukan pengganti pelatihan dan pendidikan ketat yang diperlukan untuk menjadi dokter berlisensi. “

Selain itu, ChatGPT “tidak memiliki kemampuan untuk berpikir kritis atau memecahkan masalah seperti yang dilakukan oleh seorang dokter manusia,” katanya.

Bot juga memunculkan pertimbangan etis, karena model AI “didasarkan pada pembelajaran mesin yang dapat menjadi bias, maka hasil yang dihasilkan oleh model tersebut mungkin tidak akurat dan tidak bias.

“ChatGPT adalah alat yang mengesankan untuk pemrosesan bahasa alami, tetapi itu bukan pengganti pengetahuan khusus, pemikiran kritis, dan pertimbangan etis yang penting untuk praktik kedokteran,” katanya. “USMLE tetap menjadi cara yang penting dan valid untuk mengevaluasi pengetahuan dan kemampuan calon dokter,” kata bot tersebut.

Studi ini dilakukan oleh sukarelawan dan tidak didanai oleh sumber manapun. Tseng adalah karyawan penuh waktu dan menulis soal ujian untuk U World, sebuah perusahaan persiapan ujian USMLE.

Alicia Ault adalah seorang jurnalis lepas yang berbasis di Saint Petersburg, Florida yang karyanya telah muncul dalam publikasi termasuk JAMA dan Smithsonian.com. Anda dapat menemukannya di Twitter @aliciaault.

Untuk berita lebih lanjut, ikuti Medscape di Facebook, Twitter, Instagram, dan YouTube.