NEWS/비투엔 뉴스

[B2EN News] “데이터 활용성 높이려면 지속적인 품질 관리 뒤따라야” (1)

yesroji 2023. 2. 16. 14:23

최근 다양해진 IT 시스템과 디바이스들로 인해 기업의 IT 환경은 급격한 변화를 맞이하고 있으며, 이를 통해 기업에서 관리되고 있는 데이터의 볼륨은 매년 급속도로 증가하고 있다. 최근에는 기업의 경쟁력 강화를 위해 축적된 데이터를 어떻게 활용할 것인가에 초점이 맞춰지고 있고, 기업 경영 전반에 걸쳐 이러한 데이터 활용도가 높아지면서 데이터의 정합성과 신뢰성 데이터 품질 수준이 기업의 의사결정에 매우 중요한 요소로 작용하고 있다.

데이터에 대한 신뢰도가 낮거나 정합성이 결여된다면 데이터를 기반으로 기업의 의사결정은 거의 불가능한 수준이 되기 때문에 고품질의 데이터를 유지하고 관리하기 위한 데이터 품질 관리가 최근 매우 중요한 요소로 부각되고 있다. 그리고 이는 정형 데이터를 포함해 반정형 데이터 그리고 비정형 데이터에 이르기까지 점차 폭이 넓어지고 있다.

특히 데이터 활용 수요가 높은 AI 분야는 데이터 품질 관리에 더더욱 신경을 쓰고 있다. 시장조사업체 IDC 지난해 발표한 ‘2021-2025 국내 AI 시장 전망보고서에 따르면 국내 AI 시장은 5년간 연평균 15.1% 성장률을 기록하며 2025년에 19074억원 규모에 이를 전망이다.

이러한 성장이 현실화되기 위해서는 AI 학습데이터의 품질 역시 보장돼야 한다. 그렇지 않으면 AI 서비스가 오작동하고, 사고 또는 손실이 발생할 있기 때문에 AI 모델과 서비스의 성능 향상을 위해서는 많은 양의 데이터, 고품질의 학습용 데이터 확보가 필수적이다.

공공 주도 데이터 품질 관리 확대
데이터 품질 관리의 목적은 데이터를 활용하기 위한 것으로, 이를 위해서는 다양한 데이터를 결합하고 분석해 공유할 있어야 한다. 실제로 많은 기업들이 데이터 공유 기반을 마련하기 위해 다양한 프로젝트를 진행하고 있으며, 정부에서도 양질의 공공데이터 개방을 통한 민간의 데이터 활용 증대를 위해 데이터 품질 관리에 많은 노력을 기울여왔다.

우리나라는 그간 공공데이터 개방, 재정 투입을 통한 데이터 구축·이용권 지원 정부 주도로 빠른 초기 시장 형성에 힘써왔다. 그러나 여전히 양질의 데이터는 부족하고, 민간의 시장 참여는 더디며, 맞춤형 데이터 데이터 활용을 촉진할 제도들은 이용이 불편하고, 전문 인력·선도 기술, 기업의 데이터 활용 저변도 확충이 필요한 상황이다.

이에 정부는1 데이터산업 진흥 기본계획 토대로 정부 주도로 인해 발생했던 한계를 뛰어넘어 민관 협력을 통한 전향적 데이터 공유·개방, 과감한 제도 혁신, 선제적 투자를 추진할 계획이다.

우선 산업 수요·AI 기술경쟁력 등을 고려한 AI 학습용 데이터의 전략적 구축, 연구데이터 공유 기반 마련, 국제 데이터 수집·공유 등을 통해 신산업 창출에 필요한 데이터를 전략적으로 생산·제공하면서 우리 사회가 보유한 모든 데이터의 혁신적 생산·개방·공유를 추진한다.

공공데이터의 개방을 행정뿐 아니라 입법 분야까지 확대하고, 수요자 참여 강화로 개방의 편의성을 제고한다. 더불어 민관 협력을 기반으로 고령화 미래 현안 데이터를 수집하고 대응하는 각본을 논의하는 체계도 마련해 데이터 개방의 의미와 효과도 확대할 예정이다.

민간 중심·민간 주도의 데이터 유통·거래 생태계 또한 마련한다. 누구나 민간·공공의 데이터를 쉽게 검색하고 가치평가·품질인증 정보도 함께 접근할 있는(ONE) 윈도우구축과국가 표준화 마련 등으로 데이터를 편리하게 찾고 활용하는 국가 데이터 기반을 조성할 계획이다. 그리고 거대 플랫폼이 보유한 데이터 등에 대한 공정한 접근 원칙을 마련하고, 신뢰 기반 인공지능기술 개발 윤리교육 제공 등도 추진해 데이터에 대한 자유롭고 공정한 접근과 이용이 가능한 환경을 보장할 예정이다.

주기적인 관리 필수
데이터 품질 관리 활동은 기업과 기관 ·외부에서 발생하고 수집되는 데이터가 기업의 목적대로 생성되고 변화하고 있는지 그리고 이러한 데이터들이 얼마나 유지되고 있는지에 대해 기업의 데이터 라이프 사이클에 따라 같이 움직여야 되는 것이 일반적이다. 따라서 데이터가 생성되고, 변화되고, 소멸되는 시점까지 지속적으로 고품질 데이터를 유지하고 관리하기 위한 활동이 이뤄져야 한다.

데이터 품질 관리를 위한 활동은 크게 데이터 (정보의 내용) 생성 원칙 의도에 맞게 구성돼 있는지를 관리하는 부분과 데이터 설계 규칙에 따라 완전하게 구성됐는지, 데이터의 구조가 설계 기준과 일치하고 있는지, 기업에서 관리되고 있는 업무 규칙에 따라 데이터가 생성되고 변화하고 있는지 등의 기준에 따라 품질 관리 활동이 이뤄지며, 이러한 활동은 데이터 라이프 사이클에 따라 주기적으로 관리되어야 한다.

그러나 현실은 그렇지 못하다. 경영진은 회사가 많은 데이터를 보유하고 있으며, 그것들을 분석하면 좋은 통찰력을 얻을 있다고 기대한다. 하지만 실제로 실무진에서는 필요한 데이터를 찾고, 데이터 내역과 값을 확인하고, 데이터를 추출해 가공하는 전처리 과정을 거쳐야 하며, 막상 가공한 데이터가 분석에 적합하지 않거나 부실해 다시 앞의 과정을 반복하고 있다.

명재호 엔코아 부사장은데이터 관리 체계 부재로 인해 지속적인 품질 이슈가 발생하고 있다. 불명확한 데이터를 활용하는 것은 수많은 데이터 식별과 이해를 지연시키고 오류마저 일으킬 있다데이터 분석 요구가 있을 때마다 매번 1회성으로 대응하는 수준에서 벗어나 지속적으로 데이터 품질을 유지할 있는 체계가 반드시 필요하며, 서비스 개발부터 배포, 운영이 데브옵스(DevOps)처럼 지속 이어지는 데이터옵스(DataOps) 구현돼야 한다 말했다.

 

(자료 : 엔코아) 이상적인 데이터 관리체계

 

시작은 데이터 자산화부터
데이터 업계에서는 데이터 품질 관리를 위해 최우선적으로 시행해야 하는 것으로 데이터 자산화를 꼽는다. 데이터 자산화는 기업에서 그간 방치돼 있던 데이터들을 보안, 전략, 표준, 프로세스, 구조 등의 틀을 씌워 관리하겠다는 것을 의미하며, 기업마다 편차가 있지만 데이터가 많으면 많을수록 해당 과정에 오랜 시간과 비용을 투입해야 한다.

자산화 기반을 만들려면 데이터를 식별하고 데이터를 이해할 있어야 한다. 데이터 라이프 사이클, 데이터 오너십, 데이터 관리 프로세스, 데이터 접근 등에 대한 다각적인 검토가 필요하다. 이어 본격적인 데이터 품질 관리에 돌입하게 되어, 표준을 마련해야 하고 그에 따라 데이터 모델 설계도를 그리고 데이터베이스(DB) 생성해야 한다. DB 개발 영역, 검증 영역, 운영 영역 등으로 나뉘는데 DB 모두 관리될 있어야 한다. 더불어, 데이터를 활용하는 애플리케이션들 역시 관리가 필요하다. 어떤 애플리케이션에서 어떤 데이터를 사용하고 쿼리를 발생시키는지 업데이트 하는지 등을 살피고, 데이터의 이동 흐름도 추적할 있어야 한다.

자동화 체계 마련 필수
오랫동안 관리되지 않던 데이터의 품질을 관리하려면 많은 시간과 비용이 투자돼야 하며, 이를 달성했다 하더라도 앞서 언급했듯이 꾸준히 주기적으로 관리되지 않으면 도로 아미타불로 끝나는 경우도 부지기수다. 그렇기에 데이터 업계에서는 데이터 품질 관리를 주도할 담당자와 이를 도와줄 적절한 도구를 도입하는 것이 반드시 필요하다고 강조한다.

유진승 비투엔 솔루션사업본부장은기업들이 최고데이터책임자(CDO) 두듯이 공공에서도 데이터담당관이라는 보직이 생겨나 이들을 중심으로 데이터 품질 관리 활동이 이어지고 있다. 더욱이 공공에서는 매년 데이터 품질평가 사업을 진행하기에 전반적으로 공공데이터 품질이 관리되고 있는 상황이라며과거에는 데이터 품질 관리가 특정 담당자들에 달려있었으며, 이들이 퇴사하거나 업무가 바뀌면 후임자가 처음부터 다시 품질을 관리해야 하는 사태도 발생하곤 했다. 그러나 이제는 공공과 민간 모두에서 전문 도구들을 활용하면서 프로세스를 최대한 자동화하려 하고 있다. 그렇게 되면 특정 담당자들에게 의존성이 걸리지 않고 시스템적으로 구조화될 있어 지속적인 품질 관리에 적합하다 언급했다.

서명원 위세아이텍 DM사업부 부장은차세대 사업과 같이 처음부터 시스템을 구축하는 경우에는 데이터 품질 관리를 위한 표준을 세우고 정리하기 좋지만, 그렇지 못한 경우에는 데이터를 분류하고 수정하는 작업에 오랜 시간이 걸릴 있다이때 IT 담당자는 업무에 대한 도메인 지식이 부족하기에 현업 담당자들의 지원도 반드시 필요하다 강조했다.

데이터 품질 관리 시장활짝
데이터를 활용하려는 수요가 늘어남에 따라 공공과 민간 모두에서 데이터 품질 관리에 대한 중요성을 인식했으며, 그로 인해 품질 관리 도구를 찾는 곳들도 늘어나고 있다.

비투엔은 자체 개발한 품질 관리 솔루션 ‘SDQ’ 앞세워 공공과 민간 시장 모두를 공략하고 있으며, 비투엔의 데이터 품질 관리 솔루션은 크게 기업의 고품질 데이터 관리를 위한 품질 관리 솔루션과 AI 학습용 데이터에 대한 품질관리를 위한 품질관리 솔루션으로 구분된다.

기업의 고품질 데이터 관리를 위한 품질 관리 솔루션의 경우 기존 정형 데이터 영역에 대해서는 상용 DBMS부터 오픈소스, 클라우드, 빅데이터 플랫폼에 이르기까지 국내 최다 DBMS 지원한다. 특히 공공부문에서 지속되고 있는 공공데이터 품질 수준 평가 사업에서 수준 평가 공식 도구로 선정돼 활용되고 있으며, 520여개 정부기관 공공기관으로부터 데이터 품질 진단 기술력과 안정성을 입증받았다.

지난 2021 국내 최초로 선보인 AI 학습용 데이터 품질관리 솔루션 ‘SDQ for AI’어노테이션 자동 진단 시스템기술 특허를 기반으로 구현돼 AI 학습데이터에 대한 파일 완전성, 구조 형식 정확성, 값의 유효성 구문적 정확성 검사와 데이터 편향성 예방을 위한 통계적 다양성 분석 기능을 제공한다. JSON, XML, CSV, TSV, TXT 다양한 포맷의 라벨링 파일에 대한 품질 검증을 지원하며, 복잡한 반정형 데이터 구조를 사용자가 인지하기 쉬운 트리와 구조로 시각화해 보다 직관적으로 정확하게 데이터 품질을 관리할 있다.

나아가 SDQ for AI 노코드/로우코드를 지향하는 솔루션으로 누구나 손쉽게 데이터 품질 지표를 설정하고 측정/관리할 있어 고객들로부터 좋은 평가를 받았다.

비투엔은 올해에도 공공데이터 수준 평가 사업을 통해 SDQ 솔루션이 공공기관의 고품질 데이터를 확보하고 유지하는데 있어 핵심적인 역할을 지속적으로 수행할 있도록 계획이다. 아울러 빅데이터, 클라우드 영역으로의 확대 반정형 데이터 품질 관리 영역에서 민간 사업을 확장하고 이상 탐지 기능의 확대를 통해 기업의 데이터 활용에 있어 핵심적인 역할을 담당할 있도록 방침이다.

 

비투엔 유진승 솔루션사업본부장, 박순혁 AIX그룹장 (왼쪽부터)

 

“AI 모델, 목적 명확하게 정의해야
AI
학습데이터의 품질은 AI 모델이 구축되는 초기에 가장 중요하지만, 모델 배포 이후에도 지속적인 학습이 이뤄지기 때문에 지속적인 관리가 필요하다.

AI 학습데이터의 품질 관리를 위해 가장 중요한 요소는 AI 모델의 목적을 명확하게 정의하는 것이다. 그래야만 수집, 가공(전처리), 구축(라벨링), 모델 구축 배포 개별 공정에 대한 기준을 명확하게 관리할 있으며, 뒤이어 구축된 데이터들의 의미 정확성, 구문 정확성, 통계적 다양성 지표를 관리하고 모델 학습을 위한 양질의 학습데이터를 확보할 있다.

비투엔은 국내 최초로 AI 학습용 데이터 품질관리 솔루션인 ‘SDQ for AI’ 출시했고, 지난 3 동안 구문적 정확성과 통계적 다양성 지표에 대한 품질검사 표준 도구로 활용되며 솔루션 기술력과 범용성을 인정받았다. 올해에도 지속적인 연구 개발을 통해 AI 학습데이터 품질 관리 선두 기업의 지위를 공고히 계획이다.


▶ 관련 기사 : 데이터넷