오픈AI 인공지능이 X-선 사진 등 진단 영상에서 오류를 찾아내는 능력이 영상의학 전문의들과 비슷한 수준이면서도 시간과 비용 효율성은 사람보다 훨씬 높다는 조사 결과가 나왔다.
독일 쾰른 대학병원 영상의학과 로만 게르츠 박사팀은 17일 북미영상의학회(RSNA) 저널 래디올로지(Radiology)에서 오픈AI의 거대언어모델(LLM) 인공지능 GPT-4와 다양한 경험 수준의 영상의학 전문의들을 대상으로 한 진단 영상 오류 검증 비교실험에서 이 같은 결과를 얻었다고 전했다.
연구팀은 이 연구가 진단 영상 오류 검증에서 GPT-4와 인간의 능력을 비교한 첫 연구로, AI가 영상의학 보고서 작성의 정확성과 효율성을 높일 잠재력이 있음을 보여준다고 의미를 밝혔다.
인간과 GPT-4 비교 연구는 2023년 6월부터 12월까지 한 병원에서 200건의 X-선 사진과 CT/MRI 영상을 수집하고, 이 중 100건에 누락·삽입·철자·방향 혼동·기타 등 5개 범주의 오류 150개를 의도적으로 삽입해 이를 찾아내는 방식으로 진행했다. 이후 GPT-4와 영상의학과 선임 전문의 2명, 주치의 2명, 레지던트 2명의 정확성과 속도, 비용 효율성 등을 비교했다.
GPT-4는 오류 150개 중 124개를 찾아낸 오류 감지율 82.7%를 기록했고, 사람 전문가의 오류 감지율은 각각 영상의학 선임 전문의가 89.3%(150개 중 134개), 주치의 80%(150개 중 120개), 레지던트 80%(150개 중 120개)였다. GPT-4의 오류 감지율은 영상의학과 수석전문의 2명을 제외하면 가장 높은 수준인 것. 이는 GPT-4와 영상의학 전문의 사이에 오류 감지율에 유의미한 차이가 없음을 의미한다.
여기에 GPT-4는 속도와 비용 효율성은 영상의학 전문의들보다 훨씬 높은 것으로 조사됐다. GPT-4의 진단 영상 1건당 판독 시간은 평균 3.5초였으나, 이 연구에서 판독 속도가 가장 빠른 전문의의 판독 시간은 1건당 평균 25.1초였다. 또한 GPT-4는 진단 영상 1건당 평균 보정 비용이 0.03달러로 비용 효율이 가장 높은 전문의(건당 0.42달러)의 10분의 1 미만이었다.
게르츠 박사는 "GPT-4가 진단 영상의 오류를 감지, 보정하는 업무에서 영상의학 전문의와 맞먹는 성능을 발휘하면서도 시간과 비용은 크게 줄일 수 있음을 연구 결과가 보여준다"며 "GPT-4를 활용해 영상의학 보고서의 정확성을 높여 환자 치료를 개선할 수 있다는 점에서 의미가 있다"고 전했다.
김소연 한경닷컴 기자 sue123@hankyung.com
관련뉴스