카카오브레인 "국내 최대 이미지·텍스트 데이터셋 31일 공개"

입력 2022-08-30 09:36  

카카오브레인 "국내 최대 이미지·텍스트 데이터셋 31일 공개"
"초거대 AI 연구개발 저변 확대 위해"



(서울=연합뉴스) 임은진 기자 = 카카오브레인은 초거대 인공지능(AI) 연구 개발 저변을 확대하고자 국내 최대 규모의 이미지·텍스트 데이터셋 '코요'(Coyo)를 31일 홈페이지에서 공개한다고 30일 밝혔다.
카카오브레인은 "초거대 AI 개발의 기반이자 기업의 핵심 자산인 데이터셋을 외부에 공개하는 것은 매우 이례적"이라며 코요를 통해 수많은 AI 모델이 개발되기를 바라는 차원에서 공개를 결정했다고 설명했다.
데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소 중 하나다.
높은 성능을 위해 많은 기업이 수작업으로 이미지·텍스트 쌍을 맞춰 데이터셋을 수집하는데, 이때 높은 비용과 많은 시간이 투입된다.
카카오브레인의 코요는 약 7억4천만 개의 이미지·텍스트로 이뤄진 데이터셋으로, 이름은 멕시코의 대표 화가 프리다 칼로의 고향인 멕시코시티 코요아칸에서 유래했다.
코요는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 'RQ-트랜스포머'(RQ-Transformer)와 AI 아티스트 '칼로'(Karlo) 개발에 적용됐다.
이 가운데 'RQ-Transformer'는 지난 4월 공개된 뒤 기술의 우수성을 종합적으로 인정받아 6월 세계적인 학술 대회 'CVPR 2022'에서 논문 발표 기회를 얻기도 했다.
카카오브레인은 코요를 세계 최대 수준으로 확대하기 위해 한국어를 비롯한 다양한 언어로 개발해나갈 예정이다.
또한 내년 상반기 중 코요 데이터셋을 활용한 초거대 AI 모델을 추가로 공개할 계획이다.
김일두 카카오브레인 대표는 "이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것"이라며 "앞으로도 카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것"이라고 말했다.
engine@yna.co.kr
(끝)


<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>

관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!