오픈AI는 지난 20일 일부 개발자를 대상으로 미리 이용하기 형태로 o3를 공개했다. 다음달부터 경량형 모델 ‘o3 미니’와 o3를 차례로 출시한다고 발표했다. o3는 이전 모델인 ‘o1’의 업그레이드 버전이다. 모델명 o2를 건너뛴 이유는 영국 통신사 O2가 있기 때문이다. 샘 올트먼 오픈AI 최고경영자(CEO)는 “o3는 많은 추론이 필요한 복잡한 작업을 할 수 있다”며 “우리는 이 모델을 다음 단계 AI의 시작으로 본다”고 말했다.
o3는 이용자의 프롬프트(명령어)를 받으면 자신의 논증을 정리한 뒤 가장 정확하다고 판단한 응답을 요약해 제공한다. 프로그램 개발 맞춤형 벤치마크(기준지표) ‘SWE-벤치 베리파이드’에서 o1보다 22.8%포인트 높은 성능을 보였다. 컴퓨터 코딩 실력 측정 지표인 ‘코드포스’에서는 2727점을 기록했다. 올해 미국 수학경시대회(AIME)에선 단 한 문제만 틀린 96.7%의 정답률을 기록해 o1(83%)보다 훨씬 높은 성적을 거뒀다.
오픈AI는 o3가 AGI에 근접한 최초의 모델이라고 주장했다. o3는 AGI 측정을 위한 벤치마크 ‘ARC-AGI’에서 75.7점을 기록해 o1(32점)보다 성능이 대폭 향상된 것으로 나타났다. o3에 새로 도입된 ‘추론 시간 조정’ 기능을 활용하면 연산 시간을 낮음·중간·높음 등 3단계로 설정할 수 있는데, 연산 시간을 늘린 결과 점수는 87.5점까지 올라갔다. 인간 평균(85점)을 능가하는 지적 수준에 도달했다는 게 오픈AI 측 주장이다. 다만 o3가 모든 분야에서 인간과 비슷한 지적 능력을 갖췄다고 보기엔 무리가 있다.
실리콘밸리=송영찬 특파원 0full@hankyung.com
관련뉴스