오픈AI의 거대언어모델(LLM)인 GPT-4가 영상의학 전문의만큼 진단 영상의 오류를 감지하면서도 시간 효율은 더 높은 것으로 나타났다.
16일(현지 시간) 북미영상의학회(RSNA) 저널 래디올로지에 공개된 독일 쾰른 대학병원 영상의학과 로만 게르츠 박사 연구팀 논문에 따르면 이들은 GPT-4와 영상의학 전문의 6명을 대상으로 진단 영상 오류 식별 비교실험을 진행했다.
연구팀은 지난해 6~12월 한 병원에서 X선 사진과 컴퓨터단층촬영(CT), 자기공명영상(MRI) 등 영상 200개를 수집하고 이 가운데 100건에 오류 150건을 의도적으로 넣었다. 이후 GPT-4와 영상의학 선임 전문의 2명, 주치의 2명, 레지던트 2명에게 오류를 찾아내도록 했다.
실험 결과 GPT-4와 영상의학 전문의 간 오류 탐지율은 비슷한 수준으로 나타났다. GPT-4는 150개 오류 가운데 124개를 찾아내 82.7%의 탐지율을 기록했다. 전문가의 경우 영상의학 선임 전문의의 탐지율이 89.3%(134개), 주치의와 레지던트가 각각 120개를 찾아내 80%의 탐지율을 기록했다.
연구팀은 “GPT-4는 진단 영상에서 영상의학 전문의와 맞먹는 오류 탐지율을 보여줘 시간과 비용을 절감할 수 있는 것으로 나타났다”면서 “하지만 대규모 언어 모델을 실제 지역 병원 정보 시스템에 구현하려면 데이터 프라이버시가 보장돼야 할 것”이라고 말했다.
김하경 기자 whatsup@donga.com