美 의사시험 합격한 챗GPT, 수능 수학 성적은 '9등급'

정호진 기자

입력 2023-02-06 12:19

美 의사시험 합격한 챗GPT, 수능 수학 성적은 '9등급'

챗GPT의 수능 수학영역 3번 문제 풀이 [자료사진 = 이상호 애나 CTO 제공]

미국 의사시험에 합격한 것으로 알려진 대화형 인공지능(AI) `챗GPT`가 대학수학능력시험에선 수학 9등급의 성적표를 받아들었다.

기술검증 스타트업 `애나`와 연세대학교 인공지능 김시호 교수 연구팀이 실제 수능 문제를 챗GPT에게 풀이시켜본 결과, 영어 영역 점수는 82점을 받았지만, 수학 영역에선 9등급에 해당하는 17점을 받은 것으로 나타났다.

이번 검증은 챗GPT에 수능 시험 지문과 해당 답안지를 함께 입력한 뒤, 챗GPT가 이에 답하는 형태로 진행됐다. 영어 듣기평가의 경우 음성인식이 불가하기 때문에, 듣기평가 지문을 글로 입력했고, 그림 문제 4개는 제외됐다.

그 결과 챗GPT는 영어영역에선 수능 2등급 수준의 82점을 받았다. 듣기평가에서 두 문항을 틀렸지만, 읽기 평가에서 문단의 순서를 맞추거나 글의 의미와 주제를 파악하는 등 고난이도 문제를 풀이해낸 것이다.

다만 수학 영역에서의 성적은 좋지 못했다. 챗GPT는 공통과목에서 비교적 난이도가 낮은 1~4번 문항을 포함해 총 6 문제의 답은 맞췄지만, 확률과 통계, 미적분, 기하 등 선택 영역에선 한 문제도 맞추지 못했다.

챗GPT의 수학 낙제점의 원인은 챗GPT가 연산이 아닌, 여러 데이터를 학습해 직접 문제를 풀어내기 때문인 것으로 나타났다.

계산기로 연산한다면 간단한 수학 문제는 쉽게 풀어낼 수 있지만, 챗GPT는 기존에 있는 데이터에서 학습해 답을 끌어오는 것이기 때문에 데이터가 부족한 복잡한 연산의 경우 학습이 더디다는 것이다.

이상호 애나 CTO는 "영어 영역의 경우 문장을 추론하고 요약하는 풀이 과정은 빅데이터를 기반으로 학습하는 챗GPT가 잘 풀어낼 수 있는 문제이지만 수학은 데이터 기반의 풀이 방식이 효율적이지 못해 낙제점을 받은 것"이라고 설명했다.

한편 미국 캘리포니아 마운틴뷰의 의료기관 앤서블헬스의 연구진은 챗GPT를 대상으로 미국의사면허시험을 실시한 결과 모든 시험에서 50% 이상의 정확도를 보였다는 내용의 논문을 소개한 바 있다.