[인터뷰] “AI 서비스 품질, 학습용 데이터 품질에 달렸다”
정부의 디지털 뉴딜 정책 추진과 인공지능(AI) 산업 발전에 따라 AI 학습용 데이터 구축 시장이 급성장하고 있다. 하지만 구축되는 학습 데이터들의 품질 관리를 위한 세부 기준과 도구가 미흡해 실질적인 품질 관리가 힘든 것이 사실이다. 이와 관련하여 빅데이터·AI 전문 기업 비투엔은 회사가 보유한 품질 관리 노하우와 기술력을 담은 AI 학습용 데이터 품질 관리 플랫폼 ‘SDQ for AI’를 선보이며 관련 시장 선도에 나섰고, 이에 박순혁 비투엔 AIX 그룹장을 만나보았다.
데이터 품질 관리 시장 개척
박순혁 그룹장은 “‘SDQ for AI’ 출시 이전에는 품질이 낮은 데이터를 삭제해 모델 학습에 사용되는 데이터의 양이 부족한 상황이 빈번하게 발생했지만, ‘SDQ for AI’ 출시 이후 학습 데이터 구축 초기 단계부터 데이터 품질을 상시 점검하고 개선해 보다 많은 고품질의 학습 데이터 확보가 가능해졌다”며 “기존에는 범용적인 AI 학습용 데이터 품질 점검 도구가 없었기 때문에 학습 데이터별로 프로그램을 개발해 품질 관리를 하거나 사람이 직접 샘플링해 데이터 품질을 점검해야 했지만, ‘SDQ for AI’를 활용하면 동일한 검사 지표로 다양한 유형의 AI 학습용 데이터 품질 점검이 가능하다”고 말했다.
특허 기술로 품질 한층 높
‘SDQ for AI’에는 AI 학습용 데이터에 대한 형식 및 구조 정확성, 카테고리 및 인스턴스의 다양성을 진단하는 ‘어노테이션 자동 진단 시스템’이 적용된 것이 특징으로 이를 활용하면 별도의 프로그램 개발 없이 다양한 분야의 학습 데이터 품질 관리가 가능하다. 그리고 1000만개 이상의 파일로 구성된 대량의 학습 데이터에 대해서도 빠른 검사와 분석 속도가 보장된다.
AI 학습 데이터 구축·활용 전 영역 지원
‘SDQ for AI’는 한국정보통신기술협회(TTA)가 추진하는 ‘AI 데이터 구문 정확성 검사 용역’ 사업을 2020년과 2021년 연속 수주하면서 다양한 분야의 학습 데이터에 대한 검사·분석 성능을 입증하였다. 또한, ‘한국어 방언 AI 데이터’, ‘드론 영상 AI 데이터’, ‘동적 객체 인지 데이터’ 사업과 ‘주제별 음성 데이터’, ‘반려동물 질병 진단을 위한 영상 데이터’, ‘요약 텍스트 데이터’ 사업을 2년여에 걸쳐 수주하면서 AI 학습용 데이터 품질 관리 전문 기업임을 인정받고 있다.
박순혁 그룹장은 “AI 데이터 품질 관리 영역뿐만 아니라 데이터 구축과 활용 전 영역을 지원하는 통합 플랫폼으로 진화시켜 나갈 것”이라고 언급했다.
▶ 관련 기사 : 데이터넷 등