[인터뷰] “AI 학습용 데이터 구축, ‘SDQ for AI’가 책임진다”
| 박순혁 비투엔 수석
[아이티데일리] 많은 국내 기업들이 AI를 자사의 서비스에 활용하기 위해 노력하고 있지만, AI를 학습시키기 위한 데이터가 부족해 어려움을 겪고 있다. 이에 정부는 ‘AI 학습용 데이터 구축사업’을 추진, 민간 수요가 높은 분야에서 AI 학습에 사용할 수 있는 데이터들을 선제적으로 구축해 혁신적인 AI 서비스 출시를 지원하고 있다. 특히 뛰어난 AI 서비스를 개발하기 위해서는 학습용 데이터의 품질이 담보돼야 하므로, AI 학습용 데이터 구축사업에서는 데이터의 품질 관리가 더없이 중요한 문제로 다뤄지고 있다.
빅데이터 및 AI 전문기업 비투엔은 다수의 공공‧민간 데이터 구축과 품질관리 경험을 바탕으로, AI 학습용 데이터 구축사업을 포함한 다수의 정부 주도 프로젝트에서 데이터 품질관리의 핵심적인 역할을 담당하고 있다. 박순혁 비투엔 수석을 만나봤다.
학습용 데이터 구축사업, 품질관리가 성공의 분수령
AI 학습용 데이터 구축사업은 디지털 뉴딜 프로젝트의 일환인 ‘데이터댐 구축’에 포함된 대표 과제 중 하나다. 정부 예산으로 데이터 활용 수요가 높은 분야에서 AI 학습에 사용할 수 있는 데이터를 선제적으로 구축해, 기업들이 손쉽게 데이터를 확보하고 AI 모델을 학습시켜 혁신적인 AI 서비스를 출시할 수 있도록 돕겠다는 취지다. 지난해에만 추경을 포함해 2,925억 원의 예산을 투입했으며, 향후 2025년까지 약 2조 5,000억 원에 달하는 예산을 순차적으로 투입할 예정이다.
AI 서비스가 뛰어난 성능을 발휘하기 위해서는 학습용 데이터의 양과 질이 모두 만족돼야 한다. 이에 AI 학습용 데이터 구축사업에서는 다양한 분야에서 기업들의 참여 기회를 확대하고 데이터의 양적인 측면을 채우는 동시에, 구축된 데이터가 일정 이상의 품질을 유지할 수 있도록 적절한 데이터 품질관리 프로세스를 갖추고 있다.
AI 학습용 데이터 구축사업의 품질관리는 한국정보통신기술협회(TTA)가 전담하고 있다. TTA는 1차‧2차 AI 학습용 데이터 구축사업에서 구축되는 10대 분야 170종 데이터셋의 품질 관리를 위해 ‘AI 데이터 어노테이션(Annotation) 구문적 정확성 검사 사업’을 추진하고 있다. 해당 사업은 AI 학습용 데이터 구축사업에서 구축하는 데이터들이 AI 서비스 개발에 유용하게 활용될 수 있도록 구문적 정확성 검사와 통계적 다양성 분석 등을 수행한다.
현재 TTA의 품질관리 사업은 비투엔이 수행하고 있다. 2004년 설립된 비투엔은 지난 16년 간 국내에서 데이터 전문 비즈니스에 집중해온 빅데이터 및 AI 전문기업이다. ‘최고의 데이터 전문가들이 모여 데이터로 세상을 연결하고 이해하며 새로운 고부가가치를 창출한다’는 목표로 데이터의 설계, 활용, 분석에 이르는 전 과정에 걸쳐 컨설팅과 솔루션을 제공하고 있다. 특히 지난 6년간 공공데이터 수준평가 사업을 진행하며 관련 분야에 대해 높은 이해와 경험을 갖추고 있어 이번 사업에 최적화된 기업으로 평가된다.
비투엔은 그동안 민간과 공공분야에서 비즈니스를 펼치며 축적된 경험과 노하우를 활용해 ‘SDQ’‧‘SMETA’‧‘SFLOW’ 등 다양한 데이터 품질‧관리‧통합 제품들을 갖추고 있다. 최근에는 AI 학습용 데이터 구축사업에 발맞춰, 이에 최적화된 데이터 품질 검사 도구 ‘SDQ for AI’를 선보였다. ‘SDQ for AI’는 데이터 품질 검사 규칙을 자동 생성해 업무 효율을 높이는 것은 물론, 구문적 정확성 검사와 다양성 분석, 리포트 생성 기능 등을 탑재하고 있다. 비투엔은 해당 제품을 TTA의 품질관리 사업에 활용하며 성능을 더욱 고도화하고 있다.
다음은 박순혁 비투엔 수석과의 인터뷰를 일문일답으로 정리한 것이다.
16년 간 축적된 노하우로 최적의 품질관리 수행
Q. 비투엔은 이번 사업에서 어떤 역할을 담당하고 있는지?
TTA 사업에서는 활용도 높은 양질의 데이터가 구축될 수 있도록 AI 학습용 데이터셋의 구성요소인 어노테이션 파일에 대한 구문 정확성, 통계적 다양성 관점의 품질 검사를 수행하고 있다. 구문 정확성 검사에서는 어노테이션 파일의 유효성, 구조의 정확성, 값의 유효성 등 세부 항목에 대한 품질을 검사하며, 이후 통계적 다양성 분석을 통해 데이터셋의 클래스 분포, 인스턴스 분포, 문장 길이, 어휘 개수 등을 산출해 적합성을 검증한다.
AI 학습용 데이터 구축사업에서도 데이터 품질관리를 수행하고 있는데, 실제로 수행하는 업무는 크게 차이가 없다. 일부 차이점을 꼽자면 TTA 사업에서는 구축된 데이터를 검증하고 관리하는 것 이외에 업무 프로세스에 대한 관리를 수행한다. 반면 AI 학습용 데이터 구축사업에서는 데이터의 설계에서부터 최종적인 데이터 구축과 납품에 이르기까지 전반적인 공정관리가 추가된다는 점이다.
Q. 비투엔이 데이터 품질 관리의 핵심적인 역할을 맡을 수 있었던 이유는?
비투엔은 지난 16년간 공공기관과 민간기업들을 상대로 데이터 구축 및 품질관리 컨설팅을 수행해왔다. 또한 2015년부터는 공공데이터 수준평가 사업을 6년 연속 수행하며 520여 개 기관 및 지자체가 보유한 데이터에 대해 품질 평가를 총괄했다. 이를 통해 공공데이터 사업의 생태와 프로세스를 정확히 이해하고 있으며, 방대한 데이터에 대한 품질관리에 대해서도 전문성을 확보하고 있다.
AI 학습용 데이터 구축사업은 1차‧2차에 걸쳐 총 10개 분야 170종의 데이터셋을 구축한다. 이렇다보니 사업에 참여하는 컨소시엄이 92개에 달할 정도로 많고 기업마다 전문분야도 다양하다. 양적인 측면에서 업무량이 상당하기 때문에 경험이 없는 기업은 쉽게 손대기가 어렵다. 비투엔은 축적된 경험과 노하우를 바탕으로 데이터 구축에 참여하는 기업들이 어려움을 겪을 것으로 예상되는 부분들을 분석해 상세한 가이드를 만들어 배포했다. 또한 커뮤니케이션 채널이 집중돼 문제가 생기는 것을 막기 위해 사전에 설명 자료를 충분히 준비해 대처할 수 있었다.
또한 오랫동안 데이터 비즈니스를 펼쳐오면서 10년 이상의 경력을 보유한 데이터 전문가가 많다는 점도 큰 영향을 미쳤다. 학습용 데이터 구축사업에 참여하는 기업들이 다양하다보니 참여하는 기업들마다 독자적인 데이터 구조와 품질을 가지고 있는데, 총괄하는 기관에서는 이러한 특색을 정확하고 빠르게 이해해서 결과를 내놓아야 하기 때문에 많은 노하우가 필요하다. 특히 산업 분야가 다양해서 넓은 도메인 지식도 요구된다. 비투엔이 보유한 데이터 전문가들은 다양한 분야에 대한 데이터 구축‧모델링‧활용 노하우를 갖추고 있어 충분히 대응이 가능하다.
Q. 이번 사업이 타 데이터 구축 프로젝트와 다른 점이 있다면?
AI 학습용 데이터를 구축하는 것이 목표인 만큼 데이터 품질 관리의 대상이 다르다. 기존에 수행하던 여타 품질관리 프로젝트들은 RDBMS에 적재된 정형 데이터를 대상으로 하는 경우가 많았다. 반면 이번 사업에서는 XML, JSON 등 파일 형태의 비정형 데이터를 대상으로 품질 검사를 수행했다.
AI 학습용 데이터셋은 쉽게 데이터를 교환하고 저장하기 위해 XML, JSON과 같은 비정형 데이터 포맷으로 구축된다. 비정형 데이터 포맷은 계층 구조를 활용해 자유롭게 설계가 가능하고, 기계뿐만 아니라 사람도 쉽게 읽을 수 있다는 장점을 가진다. 하지만 92개의 컨소시엄이 저마다 구축하는 170종의 학습용 데이터셋을 빠르고 정확하게 이해하고 검사하는 것은 쉽지 않다. 사업 수행 전부터 현실적으로 많은 어려움이 예상됐던 부분이다.
이러한 문제를 해결하기 위해 도메인별 특성을 내포한 XML, JSON 구조 분석이 가능한 도메인별 전담 인력을 배치해 데이터셋 별로 최적의 검사가 이루어질 수 있도록 했다. 예를 들어 음성/텍스트 등 자연어 처리에 대한 전담반, 자율주행에 대한 전담반 등을 구성한 것이다. 그러면 도메인 데이터에 대한 이해가 빠르고 특성 파악이 쉽다. 비투엔은 다년간 데이터 품질 관련 프로젝트들을 수행하며 다수의 도메인 전문가들을 갖추고 있어 대응 가능했다.
또한 컨소시엄들의 자체적인 품질관리가 부족한 문제도 있었다. 컨소시엄 내에 품질관리 조직이 없거나 부족해 최소한의 품질관리가 되지 않은 채로 넘어오는 경우다. 이렇게 되면 하나의 데이터셋 내에서도 데이터 항목이나 타입이 일치하지 않거나 인코딩이 제각각인 경우가 발생한다. 이러한 데이터는 활용할 수가 없다. 이런 것들은 지속적으로 컨소시엄과 소통하면서 리포트를 보내고 재차 데이터셋을 받아 품질검사를 수행하는 과정을 요구한다. 따라서 미리 커뮤니케이션에 많은 코스트가 소요될 것을 예상하고 철저한 리소스 및 일정 관리가 이뤄져야 한다.
학습용 데이터셋에 최적화된 ‘SDQ for AI’
Q. ‘SDQ for AI’는 어떤 제품인가?
방대한 데이터에 대한 품질 검사와 관리는 어떤 솔루션을 쓰는가가 가장 중요하다. 품질 관리를 사람이 직접 수행하면 오류도 발생하고 업무량도 많아지며, 데이터에 대한 신뢰도 생기지 않는다. 이에 비투엔은 ‘SDQ’나 ‘SMETA’와 같은 솔루션을 개발해 시장에 공급하고 있으며, 다수의 공공기관에서도 사용하며 성능을 입증받고 있다. 특히 ‘SDQ’는 비투엔이 지난 6년간 수행한 공공데이터 수준평가 사업의 공식 솔루션으로 사용되고 있다.
‘SDQ for AI’는 그동안 비투엔이 ‘SDQ’를 통해 축적한 기술력을 반영한 데이터 품질 검사 도구다. 학습용 데이터의 구조 및 형식의 정확성과 유효성, 다양한 관점의 품질관리 기능이 탑재된 AI 학습용 데이터 전문 도구라고 할 수 있다. 본래 AI 학습에 사용되는 비정형 데이터는 도메인에 따라 데이터의 특성과 구조가 천차만별이라서 단일한 솔루션으로 대응하기가 쉽지 않다. 하지만 ‘SDQ for AI’는 특정 기준을 중심으로 다양한 도메인에 대응할 수 있도록 범용성을 갖춘 도구로 개발됐다.
기존 데이터 품질관리 도구인 ‘SDQ’와 비교하자면 검사 대상과 항목, 제품의 서비스 형태 등에서 차이가 있다. 검사 대상 측면에서는 ‘SDQ’가 RDBMS에 적재된 정형 데이터를 대상으로 하는 반면, ‘SDQ for AI’는 XML, JSON과 같은 파일 형태의 비정형 데이터를 대상으로 한다.
검사 항목 측면에서 ‘SDQ’는 도메인 규칙, 데이터 규칙, 업무 규칙을 활용한 품질 진단을 기본으로 하고, 메타데이터 관리 도구인 ‘SMETA’와 연계해 표준 및 구조 진단이 가능하다. ‘SDQ for AI’는 하나의 검사 규칙을 기반으로 파일의 유효성, 구조의 정확성, 형식 및 값의 유효성 등 총 3가지 검사 항목에 대한 품질 검사를 수행하는 게 차이점이다.
마지막으로 서비스 형태에서 차이가 있다. 기존 ‘SDQ’는 패키지 형태의 설치형 솔루션으로 제공되지만, ‘SDQ for AI’는 설치형 솔루션과 클라우드 서비스 형태로 모두 제공된다. ‘SDQ for AI’의 클라우드 서비스는 올해 안에 출시될 예정이다.
Q. 향후 비투엔의 비즈니스 목표는?
비투엔은 AI 학습용 데이터 구축사업이 나오기 전부터 공공 데이터에 대한 품질 관리의 중요성을 강조하고 관련 기술에 투자해왔다. 현재 국내에서 데이터 품질 관리에 있어서는 선두에 있다고 생각한다. 타 경쟁사들이 시장의 성장 가능성을 가늠하면서 리소스를 투자하는 게 맞는지 고민하고 있을 때, 비투엔은 선도적으로 시장의 성장을 유도하고 기술력 향상에 주력하면서 함께 성장해왔다. 공공분야의 데이터 구축사업이 나오기 시작했을 때부터 비투엔은 다양한 공공데이터의 품질관리를 총괄해왔으며, 이러한 사업에 선제적으로 뛰어들고 경험과 노하우를 축적해왔기 때문에 이번 AI 학습용 데이터 구축사업과 같은 대규모 사업에서도 최선의 해결책을 제시할 수 있었다.
비투엔은 이미 뛰어난 데이터 비즈니스 솔루션들을 보유하고 있지만 여전히 기술에 대한 투자를 아끼지 않고 있다. 많은 공공‧민간사업을 진행하면서 지속적으로 보완점을 찾아나가고 있기 때문이다. 앞으로도 비투엔은 뛰어난 기술적 역량과 공공‧민간을 가리지 않는 레퍼런스를 바탕으로 국내 데이터 비즈니스 시장의 대표 기업으로 자리매김할 것이다.