GPT-4 Çok Dilli Tıbbi Notları Yüksek Doğrulukla İşliyor
Bir grup araştırmacı, GPT-4’ün İngilizce, İspanyolca ve İtalyanca’da yazılmış tıbbi notlara dayalı önceden belirlenmiş soruları yanıtlama becerisini değerlendiren bir çalışmayı yayınladı.
Araştırmanın Arkaplanı
Tıbbi notlar değerli klinik içgörüler içerir, ancak yapılandırılmamış anlatı formatları otomatik analiz için zorluklar oluşturur.
Büyük dil modelleri (LLM’ler) gibi GPT-4, ilaçlar gibi açık detayları çıkarma konusunda vaatler sunar, ancak nüanslı tıbbi karar verme için önemli olan örtük bağlamsal anlayışta sıkıntı yaşar. Sağlayıcılara özgü belgeleme stillerindeki değişkenlik karmaşıklığı artırır.
Çalışma Hakkında
Çalışma, dört ülkeden sekiz üniversite hastanesini içeren retrospektif bir model değerlendirme çalışmasını kapsadı: Amerika Birleşik Devletleri (ABD), Kolombiya, Singapur ve İtalya.
Katılan kurumlar 4CE Konsorsiyumu’nun bir parçasıydı. Bunlar arasında Boston Çocuk Hastanesi, Michigan Üniversitesi, Wisconsin Üniversitesi, Singapur Ulusal Üniversitesi, Kansas Tıp Merkezi Üniversitesi, Pittsburgh Tıp Merkezi Üniversitesi, Antioquia Üniversitesi ve Istituti Clinici Scientifici Maugeri yer alıyordu.
Harvard Üniversitesi Tıbbi Bilişim Bölümü koordinasyon merkezi olarak hizmet verdi. Her site, 1 Şubat 2020 ile 1 Haziran 2023 tarihleri arasında yazılmış yedi tanımlanmamış tıbbi notu sağladı. Bu, altı site’nın İngilizce, birinin İspanyolca ve birinin İtalyanca not sağlamasıyla toplamda 56 tıbbi notuyla sonuçlandı.
Çalışma Sonuçları
Toplamda 56 tıbbi not, dört ülkeden sekiz siteden toplandı: ABD, Kolombiya, Singapur ve İtalya. Bunlardan 42’si (%75) İngilizce, yedisi (%13) İtalyanca ve yedisi (%13) İspanyolcaydı. Her not için GPT-4, 14 önceden belirlenmiş soruya yanıt üretti ve toplamda 784 yanıt elde edildi.
Bunların arasında, hem doktorlar GPT-4 ile 622 yanıtta (%79) hemfikirdi, bir doktor 82 yanıtta (%11) hemfikir olurken hiçbiri 80 yanıtta (%10) hemfikir değildi.
Doktorlar, İspanyolca (%88) ve İtalyanca (%84) notlar için GPT-4 ile daha fazla hemfikir olma eğilimindeydi. GPT-4’ün hastaları hipotetik bir çalışma için seçme becerisini değerlendirirken duyarlılığı değişkenlik gösterdi.