샘 올트먼 오픈AI 최고경영자(CEO)는 14일(현지시간) 공개한 생성 인공지능(AI) GPT-4를 두고 이같이 설명했다. GPT-4는 2020년 공개한 GPT-3 이후 약 3년 만에 나온 후속 모델이다. 답변 능력이 개선된 것은 물론 텍스트와 이미지를 함께 이해하는 능력까지 갖췄다. 생산성을 높일 도구로 활용할 수 있을 것이라는 게 전문가들의 공통적인 평가다.
GPT-4의 가장 큰 특징은 ‘멀티모달(multimodal)’ AI라는 점이다. 멀티모달은 다양한 형태의 콘텐츠를 입출력에 활용할 수 있다는 의미다. GPT-3는 텍스트 데이터만 학습해 문자로 물어보면 문자로 답을 얻을 수 있었다. 반면 GPT-4는 이미지를 함께 학습했다. 오픈AI의 이미지 생성 AI인 ‘달리2’처럼 텍스트를 입력하면 이미지를 만들어주는 기능은 없다. 대신 이미지에 담긴 내용과 맥락을 이해해 텍스트 내용과 결합한 답변을 내놓는다.
예를 들어 GPT-4에 밀가루, 계란, 우유 등이 있는 사진과 함께 “이 재료들로 무엇을 만들 수 있을까”라고 질문하면 팬케이크, 와플, 프렌치토스트 등을 제시한다. 무거운 추에 풍선을 매단 사진을 업로드하고 “줄을 자르면 어떻게 될까”라고 물어보면 “풍선이 하늘로 날아간다”는 답을 준다. 그래프 내용을 분석해주기도 하고 유머 사진이 웃긴 이유를 설명하는 것도 가능하다.
실제로 각종 시험에서 챗GPT보다 나은 성적을 거뒀다. 미국 변호사 시험에서 챗GPT는 213점으로 하위 10%에 그쳤지만 GPT-4는 298점으로 상위 10%에 포함됐다. 미국 대학 입학 자격시험인 SAT 읽기 및 쓰기와 수학 시험에서도 상위 10% 수준의 성적을 기록했다. 유머 감각도 늘었다. 뉴욕타임스가 ‘가수 마돈나에 대한 농담을 해보라’고 하자 “마돈나가 기하학을 배운 이유는 모든 각도에서 포즈를 취하는 방법을 배우기 위해서”라고 답했다.
한 번에 기억할 수 있는 단어 수도 대폭 늘었다. GPT-3.5는 한 번의 대화에서 최대 8000단어(토큰 4096개)를 처리할 수 있지만 GPT-4는 최대 6만4000단어(토큰 3만2768개)까지 처리할 수 있다. 수십 쪽짜리 논문을 입력하고 요약해달라고 하는 게 가능하다는 의미다.
오픈AI는 안전성을 높였다는 점도 강조했다. 챗GPT는 질문에 틀린 답을 내놓는 ‘환각(헐루시네이션)’ 현상으로 논란이 되기도 했다. 오픈AI는 “불법 행위와 관련한 요청에 응답할 가능성이 GPT-3.5 대비 82% 줄었고 사실에 입각한 응답을 하는 비율은 40% 높아졌다”고 설명했다.
오픈AI는 GPT-4를 활용한 서비스도 소개했다. 언어 학습 앱 ‘듀오링고’는 학습용 챗봇을 만드는 데 GPT-4를 도입했다. 덴마크 스타트업 비마이아이즈는 GPT-4의 이미지 인식 기능으로 시각 장애인 대상 길 안내 서비스를 제작 중이다. 모건스탠리는 내부 데이터베이스 검색 및 활용을 위한 챗봇을 만들었다. 하정우 네이버클라우드 AI랩 소장은 “생산성을 강조해 기업 간 거래(B2B) 분야에서 활용도가 높을 것으로 보인다”고 분석했다.
이승우/김주완 기자 leeswoo@hankyung.com
관련뉴스