[솔루션] 비투엔 ‘SDQ for AI’, AI 학습용 데이터 품질 관리 시장 주도
‘어노테이션 자동 진단 시스템 기술 특허’ 기반 고품질 학습용 데이터 확보
음성·자연어, 비전, 자율주행 등 다양한 분야 학습용 데이터 품질 검사 완벽 지원
[데이터넷] 인공지능(AI)의 발전과 함께 딥러닝 활용에 필수적인 학습데이터 구축의 중요성이 높아지고 있다. 이에 비투엔(대표 조광원)은 양질의 데이터셋 구축을 위한 고품질 학습용 데이터 확보와 라벨링 정확도 향성을 위해 AI 학습용 데이터 품질 관리 솔루션 ‘SDQ for AI’를 선보이고, 황무지였던 AI 학습용 데이터 품질 관리 시장 개척에 나서고 있다.
글로벌 AI 시장의 폭발적 성장에 따라 데이터 전처리 분야는 2025년에 8.6조원으로, 품질 검증 분야는 5200억원 이상으로 성장할 것으로 전망되고 있다. 정부는 우리나라가 이러한 글로벌 AI 시장에서 기술 경쟁력을 확보하기 위해 AI 학습용 데이터 구축을 통한 ‘데이터댐’ 건설을 추진 중이다.
정부 예산으로 데이터 활용 수요가 높은 분야에서 AI 학습에 사용할 수 있는 데이터를 선제적으로 구축해 기업들이 손쉽게 데이터를 확보하고, AI 모델을 학습시켜 혁신적인 AI 서비스를 출시할 수 있도록 돕겠다는 취지다.
2020년에만 추경을 포함해 2925억원의 예산을 투입했으며, 향후 2025년까지 약 2조5000억원에 달하는 예산이 순차적으로 투입될 예정이다. 대규모 예산이 투입되는 만큼 구축 사업의 결과물인 AI 학습용 데이터의 품질에 대한 중요성이 강조되고 있지만, 비정형 학습용 데이터의 품질 관리를 위한 세부 기준과 도구가 미흡한 것이 현실이었다.
비투엔이 선보이는 AI 학습용 데이터 품질 관리 솔루션 ‘SDQ for AI’는 원천기술인 ‘어노테이션(Annotation) 자동 진단 시스템’ 기술 특허를 기반으로 구현돼 AI 학습용 데이터에 대한 어노테이션 정보 기반의 파일의 완전성 진단, 구조/형식의 정확성 진단, 데이터 값의 유효성 진단 등 구문 정확성 검사 기능을 제공한다.
또 학습데이터의 규모 분석, 클래스의 다양성 분석 등 통계적 다양성 분석 기능을 제공해 품질 검수 비용 절감 및 고품질 학습용 데이터 확보가 가능하도록 지원한다.
AWS S3와 연동…효율적인 검사 대상 수집
AI 학습용 데이터셋은 음성, 이미지, 텍스트 등 원시·원천 데이터와 라벨링 정보를 포함하고 있는 어노테이션 파일로 구성된다. ‘SDQ for AI’는 JSON, XML, CSV 등 다양한 포맷의 어노테이션 파일에 대한 품질 진단을 지원한다.
국내에 서비스되고 있는 라벨링 플랫폼들은 AWS, 애저(Azure)와 같은 클라우드 환경에서 AI 학습용 데이터를 관리하는데 ‘SDQ for AI’는 이 중 AWS S3와 연동돼 AWS 액세스 키(Access Key)와 AWS 시크릿 키(Secret Key) 정보만으로 별도의 데이터 이관 절차 없이 검사 대상 학습데이터의 등록이 가능하다.
사용자 친화적인 구문 정확성 검사 규칙 자동 생성
2020년 AI 학습용 데이터 구축 사업을 통하여 구축된 데이터셋은 95% 이상이 JSON 포맷이었다. 비정형 데이터의 특성을 가지고 있는 JSON 포맷은 기계학습을 위해 자유롭게 계층 구조의 학습용 데이터를 구축하기에 적합한 포맷이지만, 사람이 직관적으로 해당 구조를 파악하기에는 어려움이 존재한다.
‘SDQ for AI’는 이러한 어려움을 극복하기 위하여 복잡한 계층 구조를 분석해 표 형태의 검사 규칙을 자동으로 생성 후 사용자에게 제공함으로써 편리하고 직관적으로 검사 규칙을 작성하고 관리할 수 있도록 지원한다.
검사 규칙 하나로 끝내는 구문 정확성 검사 지원
‘SDQ for AI’는 한국지능정보사회진흥원(NIA) 품질 관리 가이드라인에 정의된 구문적 정확성 검사 3가지 세부 지표(데이터 구조, 입력 값 범위, 데이터 형식)와 더불어 어노테이션 파일의 완전성까지 총 4개 검사 항목을 단 하나의 검사 규칙으로 진단이 가능하다.
또한 시험 실행 기능을 활용해 효율적으로 검사 규칙을 검증하고 수정할 수 있으며, 웹 화면에서 개별 항목의 검사 규칙을 편집하거나 검사 규칙 업로드 기능을 활용하여 모든 검사 규칙을 한 번에 편집할 수 있다.
GUI 기반 손쉬운 통계적 다양성 검사 환경 구현
AI 학습용 데이터는 전체 데이터의 규모와 클래스의 분포에 따라 활용 가능 여부 및 활용 방식이 다르게 적용된다. 그렇기 때문에 모든 데이터 사용자는 데이터의 규모와 분포에 대한 현황을 파악해야 한다.
‘SDQ for AI’는 GUI가 적용된 통계 분석 기능을 제공해 몇 번 의 클릭만으로 누구나 쉽게 학습용 데이터셋의 규모, 분포 등에 대한 분석이 가능하다. 특히 사전 정의된 통계 유형과 데이터 변환 기능을 활용하면 어노테이션 파일 내 기본 항목 정보와 디렉토리 경로 정보, 파일명 등의 추가 정보를 결합해 원하는 통계 정보를 산출 할 수 있다.
최근 검사 내역 확인 등 실행 이력 관리 기능 제공
‘SDQ for AI’는 구문적 정확성 검사와 통계적 다양성 분석의 모든 실행 이력과 실행 결과에 대한 버전 관리 기능을 지원한다. 이를 통해 특정 데이터의 검사 히스토리를 추적하거나 특정 시점의 검사 결과 조회가 가능하다. 더불어 직전 검사 결과와 최종 검사 결과를 비교 그래프를 제공하여 오류 개선 현황을 한눈에 파악할 수 있다.
결과 리포트·오류 로그 파일 생성 기능 통한 가시적인 품질 관리
‘SDQ for AI’는 구문 정확성 검사 결과와 통계적 다양성 분석에 대한 결과 리포트를 자동 생성한다. 파일의 완전성, 구조 및 형식의 정확성, 값의 유효성, 통계적 다양성 관점에서 종합적인 품질 진단을 수행하고 결과에 대한 보고(Excel) 및 검사 항목별 오류 로그 보고(CSV) 기능을 탑재하고 있어 데이터 품질 진단 및 개선 활동을 위한 최적의 솔루션이다.
다양한 분야 학습용 데이터 품질 검증 완벽 지원
비투엔은 국내 AI 학습용 데이터 품질 관리 시장을 개척하고 현재까지 꾸준히 사업을 전개하고 있는 유일한 기업으로, 최다 레퍼런스 확보를 통한 풍부한 경험과 노하우가 강점이다. ‘SDQ for AI’는 대규모·대용량 AI 학습용 데이터에 대한 품질관리 기능들을 SaaS 형태로 제공한다.
비투엔은 2020년도에 ‘AI 학습용 데이터 구축’ 사업과 ‘AI 데이터의 어노테이션 구문적 정확성 검사 용역’ 사업에서 ‘SDQ for AI’를 활용해 170개 AI 학습용 데이터셋의 구문 정확성 검사와 통계적 다양성 검사를 성공적으로 수행, 고객들로부터 솔루션 성능과 안정성을 인정받았다.
특히 음성·자연어, 비전, 자율주행, 헬스케어 등 다양한 분야의 학습용 데이터에 대한 품질 검사를 완벽하게 지원함으로써 솔루션 기술 경쟁력을 입증했다.
‘SDQ for AI’는 2021년에도 AI 학습용 데이터 구축 사업에서 4개 구축 과제에서 품질 검증 도구로 활용되고 있으며, 비투엔은 데이터 기업의 해외 진출을 지원하는 ‘2021 데이터 글로벌’ 사업자로 선정돼 ‘SDQ for AI’의 현지화 및 마케팅 활동을 적극적으로 수행하고 있다.
또 작년에 사업 수행을 통해 축적된 경험과 노하우를 반영한 ‘SDQ for AI v2.0’과 품질 오류 사례를 일목요연하게 정리한 ‘2020 AI 학습용 데이터 품질 오류 사례집’을 기반으로 2021년 구축될 총 190여개의 AI 학습용 데이터의 통합 품질 검증 사업 참여를 추진 중이다.