엔씨소프트, AI 대화 데이터셋 공개…고려대와 공동연구 성과

[화이트페이퍼=최창민 기자] 엔씨소프트는 고려대학교 임희석 교수 연구팀과 공동 연구를 통해 구축한 AI(인공지능) 대화 데이터 '포커스 데이터셋'(FoCus Dataset, For Customized conversation dataset)을 공개했다고 14일 밝혔다.

포커스 데이터셋은 사용자 개인의 페르소나와 외부 지식을 모두 활용하는 세계 최초의 AI 대화 데이터셋이다. 약 8000여개의 광범위한 주제를 다룬 1만5000개 이상의 대화로 구성됐다.

포커스 데이터셋을 적용한 AI는 대화하고 있는 사용자의 경험, 선호, 소유, 흥미 등을 파악하고 위키피디아에서 이야기 주제에 대한 최신 지식을 실시간으로 습득해 자연스러운 대화가 가능하다. 포커스 데이터셋은 초거대 언어 모델을 사용하지 않고도 같은 성능의 대화 기술 구현이 가능한 것이 특징이다.

이연수 엔씨소프트 랭귀지 AI Lab 실장은 “최근 NLP 학계에서는 비용과 환경 문제로 초거대 언어 모델 기반의 대화 기술에 필적할 수 있는 새로운 대화 기술들이 제안되고 있다”라며 “이러한 연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했다. 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지길 기대한다”고 설명했다.

화이트페이퍼, WHITEPAPER

최창민 기자 ichmin3@whitepaper.co.kr 다른기사 보기