2018년 11월 구글이 발표한 언어모델 BERT(Bidirectional Encoder Representations from Transformers)에서 교육 도메인 특성을 반영해 재학습한 언어재현표현 모델인 Edu-BERT는 기존 한국어 모델의 경우 사용한 단어의 특성이 달라 교육 분야 활용을 위해서 추가 데이터를 수집하고 학습을 진행해야했던 제약을 극복할 수 있도록 개발됐다.
데이터드리븐은 2019년부터 2021년까지 교육분야 사업을 진행하며 수집한 ‘교육 활동 기록 데이터’를 형태소 단위로 분리하고 Attention & Doc2Vec Network를 통해 교육적인 의미가 강한 단어의 가중치를 조정하여 Edu-BERT를 구성했다. 해당 모델을 활용하여 한국지능정보사회진흥원이 주관하는 2021년 인공지능 학습용 데이터 구축 사업의 ‘텍스트 기반 학생 청소년 핵심역량분석 모델’ 개발에 기여한 바 있다.
또한, Edu-BERT와 GPT2를 결합시켜 개발한 교육 분야 인공지능 모델인 문장생성 모델을 개발, 교수자가 학습자를 관찰하는 다양한 기준의 지표에서 상세한 서술을 생성하는 기능을 수행하고 교수자의 관점과 판단의 방향성을 유지한 채로 문장을 생성해 수업 기록 업무대 대한 부담을 경감시켰다.
김기범 데이터드리븐 부사장은 “이번에 개발한 모델을 활용한 서비스 확장을 통해 더 많은 데이터를 수집하고 인공지능 성능을 고도화 할 수 있는 선순환 구조를 구축 중이다. 2022년 대규모 교육 데이터 추가 수집을 진행하여 더 많은 영역에 적용할 수 있는 인공지능 모델과 서비스를 개발할 계획이다”고 밝혔다.
한국경제TV 김원기 기자
kaki1736@wowtv.co.kr관련뉴스