비투엔, AI 학습용 데이터 구축사업 성공 마무리
비투엔은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 '2023년 인공지능(AI) 학습용 데이터 구축 사업'을 완료했다고 4일 밝혔다. 해당 사업은 챗GPT로 대표되는 초거대 AI 등장에 따라 국가 차원에서 대규모 고품질 데이터 구축을 지원하는 정부 주도 프로젝트다.
비투엔은 △음성인식에 의한 영상 요약 데이터 △만화 웹툰 데이터 △건물 균열 탐지 이미지(고도화) 등 3개 컨소시엄의 인공지능(AI) 학습용 데이터 품질관리 전담기업 및 품질관리 용역기업으로 참여했다. 아울러 솔트룩스, 피씨엔, 팀벨 등 다양한 AI 관련 전문 기업과 긴밀하게 협업하며 안정적인 품질관리체계를 구축했다.
비투엔이 이번 사업에서 품질 점검한 AI 학습용 데이터는 총 4종, 66만건이다. 이미지 63만건, 서브 라벨링(초거대AI 말뭉치, 이미지 캡션) 3만건과 3000시간 분량의 음성 등 방대한 분량의 데이터다. 회사는 AI 학습용 데이터 품질관리 기술의 정확성과 안정성을 바탕으로 한국어, 재난안전환경, 문화관광 등 여러 분야의 품질 관리를 성공적으로 수행했다.
특히 최신 기술인 초거대 AI 지원을 위한 언어모델로 활용 가능한 고품질의 말뭉치 데이터 품질도 함께 검증했다. 구축 완료된 말뭉치 데이터 총 186만문장, 1744만 토큰(어절 단위)에 대한 품질 검사도 완벽히 수행했다.
이와 함께 프로젝트 목표와 요구사항을 바탕으로 데이터 품질을 관리하기 위한 계획 수립 및 실행, 단계별 품질관리 활동 점검, 한국정보통신기술협회(TTA) 품질 검증 전담 지원 등 컨소시엄 내 품질관리 전반의 업무를 수행하며 데이터 신뢰성을 높였다.
박순혁 비투엔 AIX 그룹장은 “수년간 축적된 경험과 전문성을 바탕으로 인공지능(AI) 학습용 데이터 구축 사업 수행 능력을 다방면에서 인정받아 올해 초거대 AI 데이터 구축 사업에서 멀티모달 데이터와 생성형 AI 데이터 등 여러 기관과 기업의 문의가 이어지고 있다”고 말했다.
이어 “올해 고품질의 초거대AI 데이터 구축을 위해 대규모 말뭉치 데이터의 내용 유사성, 중복성, 유해성 등에 대해 품질 관리를 확대할 예정”이라고 덧붙였다. 비투엔은 기존 'SDQ for AI'를 활용한 구문적 정확성, 통계적 다양성 검사 외에도 AI 학습용 데이터 통합 플랫폼인 '라플로(Laflow)'를 통해 의미적 정확성 검사도 지원할 예정이다.