'생성형 AI 2.0' 시대…챗GPT, 사람처럼 보고 듣고 말한다

입력 2023-09-26 06:02 수정 2023-09-26 06:35

'생성형 AI 2.0' 시대…챗GPT, 사람처럼 보고 듣고 말한다

#복잡한 수학문제를 챗봇에 수식이 아닌 이미지 형태로 올린 뒤 설명해달라고 한다. 그러자 챗봇은 사진에 담긴 문제를 인식해 풀이과정을 설명해준다.

#고장난 자전거를 수리하던 중 궁금한 점이 있어 챗봇에 음성으로 물어본다. 챗봇은 질문에 대한 내용을 검색한 뒤 적절한 수리방법과 가장 가까운 수리점에 대해 음성으로 답변해준다.

생성형 인공지능(AI) 챗GPT가 사람에 가깝게 한 단계 더 진화했다. 사람과 음성으로 대화할 수 있는 기능이 추가됐다. 이미지를 보고 이에 대한 질문에 답을 할 수 있는 등 대거 업그레이드됐다. AI 개발의 최종 목표인 범용인공지능(AGI)에 한 걸음 더 다가섰다는 평가가 나온다.

25일 로이터 등에 따르면 오픈AI는 25일(현지시간) “챗GPT에 ‘보고 듣고 말하는’ 새로운 기능을 곧 제공한다”고 밝혔다. 현재 챗봇을 활용하기 위해 프롬프트(명령어)를 대화창에 입력하는 방식으로 대화했다면, 이제는 음성 대화가 가능해지는 것이다. 말로 질문을 하면 챗GPT가 이를 텍스트로 변환해 대규모언어모델(LLM)에 전달하고, 이에 대한 답변을 다시 음성으로 변환해 말하는 구조다. 챗GPT 음성은 총 5가지 형태로 제공된다. 이용자는 이 중 하나를 선택할 수 있다. 오픈AI는 또 세계 최대 음원 스트리밍 서비스인 스포티파이와 협력해 같은 목소리로 다른 언어로 번역하는 방안도 검토하고 있다고 설명했다. 오픈AI는 이 기능을 향후 2주 이내에 챗GPT 유료 구독자들에게 제공하고, 이후 모든 사람이 이용할 수 있도록 할 것이라고 밝혔다.

음성을 인식하는 AI 서비스는 이미 활용 중이다. 아마존의 음성 AI 비서인 알렉사나 애플의 시리, 구글 어시스턴트 등이다. 다만, 이들 AI 비서는 주로 이용자의 음성 명령을 실행하는 데 초점이 맞춰져 있다. 챗GPT는 현재 생성형 AI 기능을 대화형식으로 풀어내기 때문에 활용도가 더 넓다.

이미지를 보고 답하는 기능도 탑재했다. 이용자가 이미지를 대화창에 올리고, 그 이미지를 토대로 질문을 하면 챗GPT가 이미지를 보고 답을 해주는 방식이다. 예를 들어 선글라스나 옷 사진을 올리고 그에 어울리는 옷차림을 제안하도록 요청할 수 있다. 수학문제의 경우 수식어 입력 대신 문제를 통째로 사진으로 올리면 챗GPT가 사진에 담긴 문제를 인식해 풀이과정을 설명해줄 수 있다.

오픈AI는 이와 관련한 동영상도 공개했다. 영상에서 한 사용자가 자전거 이미지를 업로드하고 시트(좌석 높이)를 내리기 위해 도움을 요청하자 챗GPT는 평범한 일반적인 답을 제시했다. 이후 이용자가 자전거 시트 고정 장치 주위에 동그라미를 한 다음 도움을 요청하자, 챗GPT는 볼트 유형을 인식하고 육각 렌치가 필요하다고 알려줬다. 또 사용 설명서와 공구 상자의 사진을 보고 올바른 크기의 렌치가 있는지도 확인해 줬다. 이 기능은 향후 몇 주내 유료 구독자와 기업 이용자들에게 제공될 예정이다.

오픈AI는 “최종 목표는 안전하고 유익한 AGI를 구축하는 것”이라고 밝혔다. 이어 “새로운 도구를 점진적으로 제공해 기능을 개선하고 위험을 완화할 것”이라며 “이를 통해 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있을 것”이라고 설명했다.

실리콘밸리=최진석 특파원 iskra@hankyung.com