AI 학습 단어에 '도박'·'성인물'…오픈AI, 비영어권 홀대 논란

입력 2024-05-31 18:40   수정 2024-05-31 23:47

오픈AI가 최신 인공지능(AI) 모델의 비영어 성능을 개선하는 데 부적절한 데이터를 사용했다는 분석이 제기됐다. 오픈AI가 영어가 아닌 언어의 안전 문제에 소홀하다는 우려의 목소리가 나온다.

31일 업계에 따르면 오픈AI의 최신 AI 모델 ‘GPT-4o’에 사용된 토크나이저 ‘o200k_base’의 한국어 토큰 목록에서 ‘출장안마’ ‘출장샵’ ‘안마방’과 같은 어휘가 발견됐다. 중국어 토큰 목록에서도 같은 문제가 있었다. 지난 17일 기술 전문 매체 MIT테크놀로지리뷰는 같은 토크나이저의 중국어 토큰 목록에 ‘최신고화질미검열(最新高无)’ ‘성인영화(av影)’와 같은 성인물, 도박 관련 키워드가 포함됐다고 보도했다.

토크나이저는 텍스트를 AI 모델이 처리할 수 있는 단위인 ‘토큰’으로 나눠주는 프로그램이다. AI 모델이 텍스트를 처리하는 데 핵심적인 역할을 한다. “나는 밥을 먹었다”를 ‘나는’ ‘밥을’ ‘먹었다’의 토큰 단위로 나누고 각각의 토큰에 컴퓨터가 처리 가능한 숫자를 부여하는 식으로 텍스트를 처리한다.

토큰 목록에는 토크나이저 구축을 위한 훈련 데이터에 자주 등장한 단어들이 등록된다. 특정 언어 토큰 목록에서 부적절한 단어가 발견된 것은 토크나이저의 해당 언어 훈련 데이터에 부적절한 내용이 유의미한 비율로 포함됐다는 의미다. 부적절한 단어는 AI 모델의 취약점이 될 수 있다. 사용자가 이를 악용해 모델에 부적절한 답변을 유도할 수 있다는 설명이다.

오픈AI는 최근 AI 윤리·안전 문제로 곤란을 겪고 있다. 지난 21일에는 배우 스칼릿 조핸슨의 목소리를 무단으로 도용했다는 의혹으로 GPT-4o의 기본 목소리 중 하나를 삭제했다.

황동진 기자 radhwang@hankyung.com


관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!