오픈AI에 따르면 GPT-4는 각종 시험에서 GPT-3.5 바탕의 챗GPT를 뛰어넘는 성능을 입증했다. GPT-4는 미국 변호사시험에서 인간 응시자 상위 10% 정도의 점수를 받았다. 반면 GPT-3.5는 같은 시험에서 하위 10% 성적을 얻었다. 미국 생물올림피아드에서도 GPT-4는 상위 1% 수준으로 GPT-3.5(하위 30%)를 크게 앞섰다.
언어 구사 능력도 좋아졌다. MMLU(대규모 다중작업 언어 이해) 번역 테스트에서 세계 26개 언어 중 한국어를 포함한 24개 언어에서 GPT-3.5 영어 서비스보다 높은 성능을 보여줬다.
이미지 분석 기능도 추가됐다. 이용자가 입력한 이미지와 관련한 질문에 답할 수 있다. 처리할 수 있는 단어 수는 이전 모델보다 8배 정도 늘었다. GPT-4에서는 최대 6만4000단어(토큰 3만2768개)를 처리할 수 있다. 오답을 정답처럼 답하는 일명 ‘헐루시네이션(환각)’ 현상과 위험하고 편향적인 답변도 줄었다고 오픈AI는 설명했다. 테드 샌더스 오픈AI 개발자는 “(AI 언어모델이) 장난감에서 도구로 전환했다”고 말했다.
오픈AI는 GPT-4를 공개하면서 챗GPT의 유료 버전에 바로 사용했다. 오픈AI와 협력하는 마이크로소프트(MS)는 이날 자사 검색 엔진 ‘빙’에 GPT-4를 적용했다. 정보기술(IT)업계 관계자는 “글로벌 테크기업 간 챗봇 경쟁이 더욱 치열해지고 있다”고 했다.
김주완 기자 kjwan@hankyung.com
관련뉴스