캐나다 연구팀 "GPT-4, 전문의 합격 수준…'자신감 있는 거짓말' 문제 지속"
(서울=연합뉴스) 이주영 기자 = 생성형 인공지능(AI) 챗봇 챗GPT가 북미영상의학회(RSNA) 전문의 자격시험을 통과하는 수준의 성적을 얻어 큰 잠재력을 입증했으나 동시에 임상에 적용하기 어려울 정도의 큰 신뢰성 한계도 드러낸 것으로 나타났다.
캐나다 토론토대 메디컬이미징센터 라제시 바야나 교수팀은 17일 북미영상의학회 학술지 '영상의학'(Radiology)에서 북미영상의학회 전문의 자격시험 문제로 GPT-3.5와 GPT-4 기반 챗GPT를 각각 테스트한 결과 GPT-4는 합격선을 넘는 성적을, GPT-3.5는 합격선에 근접한 성적을 올렸다며 이같이 밝혔다.
챗GPT는 오픈AI가 지난해 11월 공개한 인공지능 챗봇으로 심층학습(deep learning) 모델을 사용해 방대한 학습 데이터에서 단어 간 패턴과 관계를 인식, 질문에 따라 사람과 유사한 응답을 생성한다. 그러나 학습 데이터 자체의 신뢰도가 떨어질 경우 그럴듯한 거짓 응답을 생성하는 문제가 계속 드러나고 있다.
연구팀은 이 연구에서 영상의학 전문의 시험 문제에 대한 챗GPT 성능을 평가하고 강점과 한계를 알아보기 위해 현재 가장 널리 사용되는 GPT-3.5와 지난 3월 공개된 GPT-4 기반의 챗GPT를 테스트했다.
시험에는 캐나다 왕립영상의학회와 미국영상의학회의 영상의학 전문의 시험 방식으로 내용과 난이도를 조절한 객관식 문항 150개가 사용됐다. 문항에 이미지는 포함되지 않았고, 문항 유형은 지식·기본 이해 등을 묻는 저차원적 사고 문제와 적용·분석·종합 능력을 묻는 고차원적 사고 문제로 분류됐다.
시험 결과 GPT-3.5 기반 챗GPT는 150문항 중 104문항(69%)을 맞혀 캐나다 영상의학회 합격선(70%)에 약간 못 미쳤으나 GPT-4 기반 챗GPT는 정답률 81%(150문항 중 121문항 정답)로 합격 수준을 기록했다.
GPT-3.5 기반의 챗GPT는 저차원 사고 문제에서는 61문항 중 51문항(84%)에서 정답을 생성했으나 고차원 사고 문제에서는 89문항 중 정답이 53문항(60%)에 그친 것으로 나타났다.
그러나 GPT-4 기반의 챗GPT는 전체 정답률 81%로 영상의학 전문의 합격선을 넘은 것은 물론 고차원 문제에서의 정답률이 81%로 GPT-3.5 기반 챗GPT보다 성능이 크게 향상된 것으로 나타났다.
연구팀은 그러나 GPT-4는 저차원 사고 문제의 정답률이 84%로 GPT-3.5(정답률 81%)와 비슷한 수준을 보였고 특히 GPT-3.5가 정답을 낸 12개 문항에서는 오히려 오답을 생성했다며 이는 GPT-4의 정보 수집 신뢰성에 큰 의문을 제기하는 것이라고 지적했다.
바야나 교수는 "처음에는 까다로운 영상의학 질문에 대한 챗GPT의 정확하고 자신감 있는 답변에 놀랐지만, 다음에는 비논리적이고 부정확한 주장에 똑같이 놀랐다"면서 "하지만 이 AI 모델의 작동 방식을 고려할 때 이런 부정확한 응답은 특별히 놀라운 것은 아니다"라고 말했다.
이어 "이 연구 결과는 GPT-4의 강화된 고급 추론 기능이 영상의학에서도 단기간에 큰 성능 향상으로 이어졌음을 보여준다"며 "이는 챗GPT 같은 거대언어모델(LLM)의 큰 잠재력을 입증하는 것"이라고 덧붙였다.
하지만 그는 "두 버전 모두 틀린 답을 낼 때 일관되게 자신감 있는 언어를 사용하는 모습을 보였다"며 "이런 자신감 있는 틀린 응답을 부정확한 것으로 인식하지 못할 수 있는 초보자의 경우 이런 정보에만 의존하면 특히 위험할 수 있어 항상 사실 확인이 필요하다"고 강조했다.
scitech@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스