[제3회 디지털 혁신 포럼] "데이터 댐, 품질관리부터 양질 일자리까지 다 잡아야"
[제3회 디지털 혁신 포럼] "데이터 댐, 품질관리부터 양질 일자리까지 다 잡아야"
[전자신문] 정부는 코로나19 팬데믹 상황을 이겨내기 위해 지난해 대규모 추경 예산을 투입해 '디지털 뉴딜'을 시작했다. 디지털 뉴딜은 일자리 창출뿐 아니라 인공지능(AI), 클라우드, 데이터 등 신기술을 적극 도입해 정부의 디지털 전환을 앞당기는 프로젝트다. 정부는 앞으로 3년간 디지털 뉴딜에 적극 투자해 디지털 전환 선도국으로 발돋움 한다는 목표다.
디지털 뉴딜 핵심 사업으로 '데이터 댐'이 꼽힌다. 데이터 댐은 양질의 데이터 셋을 구축해 다양한 AI 서비스를 창출을 이끈다. 10개월 간 데이터 댐 프로젝트가 진행되면서 데이터 관련 일자리와 기업 사업 기회가 늘었다. 정부는 데이터 댐을 고도화하며 지속 투자할 계획이다.
데이터 댐이 제대로 구축되기 위한 숙제도 많다. 전자신문과 한국클라우드사업협동조합은 '제3회 디지털 혁신 포럼' 주제로 '데이터 댐'을 선정했다. 전문가와 함께 데이터 댐 현황과 앞으로 나아가야할 방향을 논의했다.
[참석자(가나다순)]
△강용성 와이즈넛 대표(한국데이터산업협회 수석부회장)
△고윤석 한국지능정보사회진흥원(NIA) 지능데이터본부장
△권헌영 고려대 교수(4차산업혁명위원회 데이터특별위원회 위원)
△배희숙 한국클라우드사업협동조합 이사장
△양기성 과학기술정보통신부 데이터진흥과장
△조광원 비투엔 대표(한국데이터산업협회 명예회장)
△좌장=주영섭 고려대 특임교수(전 중소기업청장)
◇좌장(주영섭 고려대 교수)=지난 10개월간 디지털 댐 사업이 활발히 진행됐다. 사업 성과를 평가한다면.
◇강용성(와이즈넛 대표)=데이터 댐 사업의 핵심 과제인 AI 학습용 데이터 구축 사업은 AI와 데이터 전문 기업, 대학, 병원 등 647개 기업·기관과 4만여명의 국민이 참여한 대규모 사업이다. 이 사업을 통해 데이터산업 발전을 위한 초석을 마련한 동시에 코로나 시대 실업난 해소와 신규 인력 창출 성과가 있었다.
AI 학습용 데이터 구축 사업의 결과로 이달 170종 약 4억8000만건 데이터가 AI허브 홈페이지를 통해 순차적으로 개방됐다. 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐만 아니라 대기업도 데이터를 제공 받았다. 그동안 국내 AI 산업계에서 걸림돌로 언급된 '데이터 갈증'은 어느 정도 해소할 수 있을 것이다.
다만, AI 학습용 데이터의 '양(Quantity)'에 초점을 맞춰 구축됐기에 활용 가능한 수준의 데이터 '품질(Quality)'을 확보했다고 보기 어렵다. 개방된 AI 학습용 데이터가 제대로 활용되기 위해서는 활용자 노력이 추가로 필요하다. 데이터 품질 확보를 위한 전략과 투자가 집중돼야 한다.
◇조광원(비투엔 대표)=디지털 뉴딜 구상에서 데이터 댐은 코로나19 펜데믹 상황에서 실직 위기를 극복하며 신규 일자리 창출 성과 중심으로 추진됐다. 질적인 면보다는 양적인 측면으로 집중되는 면이 있었다. 인력 비용으로만 치중되다 보니 상용소프트웨어(SW) 활용 비용이 인정되지 않는 문제도 발생했다.
데이터 가치를 발휘하려면 활용과 분석 목적에 부합하는 양질의 데이터 자산을 데이터 댐에 체계적으로 축적해야 한다. 진정한 데이터 댐을 만들려면 활용 타깃을 보다 잘 정의하고 데이터를 위한 표준화된 지침과 프로세스를 구성해야 한다.
이를 극복하려 과기정통부와 NIA는 '인공지능(AI) 학습용 데이터 품질관리 가이드라인'과 '데이터셋 구축안내서'를 발간했다. 올해 AI 학습용 데이터 구축 사업에 적용하고 있다. 상당수 컨소시엄은 여전히 품질관리 지표와 관리 절차 이해가 부족한 상황이다. 품질관리 중요성 알림과 지도 관리가 필요하다.
◇양기성(과학기술정보통신부 과장)=데이터 댐은 우리나라 디지털 전환을 가속화하고 역량 있는 AI·데이터 기업과 산업이 성장할 수 있는 티핑 포인트를 앞당겼다. 정보통신 분야 외 제조, 유통 전통산업 분야와 교육, 의료 등 전 산업 분야 기업이 빠르게 디지털 전환을 하는 계기를 마련했다. 데이터, AI, 클라우드 등을 이용하고자 하는 기업 중 비정보통신기술(ICT) 기업이 2019년에 비해 85% 증가했다.
데이터 댐은 민간 수요를 바탕으로 정부는 물론 기업과 국민이 함께 참여해 만들어 가고 있는 성공적인 민관협력 사업으로 자리매김했다. 대표 사업인 AI 학습용 데이터의 경우 최근 개방한 170종의 데이터는 산·학·연 전문가, 주요 활용기업 등이 참여해 기획한 결과다. 크라우드소싱 방식을 도입해 4만여명에 달하는 국민 참여를 통해 데이터를 구축했다.
AI 학습용 데이터 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가, 전문기관과 활용기업 등이 참여해 실제 수요자가 요구하는 데이터 품질 확보에 힘썼다.
◇좌장=데이터 댐은 다년간 진행될 사업이다. 데이터 댐 사업이 성과를 거두기 위해 어떤 부분이 보완돼야하나.
◇권헌영(고려대 교수)=현재 발생하는 데이터 댐 사업 문제는 급하게 마련하고 추진했던 정책에 기인한다. 데이터와 데이터 산업 이해를 바탕으로 데이터 국가 전략을 세우는 접근이 필요하다.
우선 현재 구축한 데이터는 각 산업군(금융, 스마트시티 등), 정부 공공부문(행정, 교육, 의료 등) 특성을 반영해 재분류하고 이에 따라 지속 관리해야 한다. 분야별 특성에 따라 분류되고 관리된 데이터는 핵심 정보를 효과적으로 유지·관리할 수 있다. 이를 바탕으로 데이터 품질을 강화해 정보 신뢰성을 확보할 수 있다.
데이터 산업과 관련된 각 이해관계자가 모두 참여해 함께 만드는 데이터 통합 거버넌스를 구축해야 한다. 현재까지 데이터 구축과 관련 산업 진흥을 위한 정부 정책은 급하게 추진돼 데이터 산업 관련 이해관계자들 간 소통이 제대로 이뤄지지 않은 상황에서 데이터 정책이 수립·이행되고 있다.
앞으로 정부는 긴 호흡으로 성장할 수 있는 우리나라 국가 데이터 전략과 로드맵을 구축해야한다. 현재 데이터 정책은 근시안적이며, 유기적으로 연계되지 않았다. 국가 데이터 정책에 대한 중장기적 목표와 방향이 명확하게 정해져 있지 않기 때문이다. 긴 호흡으로 성장할 수 있는 국가 데이터 전략을 제시하고, 단기적인 목표부터 중장기적인 목표까지를 포괄적으로 포함하는 로드맵을 마련해야 한다.
◇강용성=데이터댐 사업 성과지표는 데이터 '준비'가 아닌 '활용'에 둬야한다. 공공데이터 개방 사업도 데이터 공개에 초점을 맞춰 초기에는 활용 부분이 미진해 어려움을 겪었다.
데이터 댐에 담긴 데이터가 실제 다양한 산업에 활용되려면 데이터 전주기를 거시적으로 바라보는 정책이 필요하다. 데이터 댐 안에 넣는 데이터 양을 늘리는 데 우선순위를 두지 말고, 데이터를 쌓는 현 시점부터 민간에서 잘 활용될 수 있는 방법을 사전 고민해야 한다. 이러한 검토 없이 쌓인 데이터를 필요한 데이터로 가공하는데 시간과 비용이 들어간다면 결국 활용되지 못할 가능성이 크다. 국민이 체감할 수 있는 서비스를 발굴해 목적지향적으로 접근하는 시도가 필요하다.
◇조광원=AI 학습용 데이터 구축 사업은 좋은 성과를 내고 있다. 이를 지속하고 활용자가 체감하는 성과를 내려면 데이터 구축 관점, 사업 운영 관점 보완이 필요하다.
데이터 구축 관점에서는 도메인별 데이터 유형별 학습용 데이터 표준 설계 가이드 제공과 즉시 활용 가능한 수준의 데이터 품질 확보가 요구된다. 개방된 AI 학습용 데이터는 도메인과 유형이 같더라도 어노테이션(Annotation) 항목과 구조, 파일 포맷이 천차만별이다. 개방된 학습용 데이터셋 활용도를 저하하는 요소다. 글로벌 표준이 적용된 도메인별 데이터 유형별 학습용 데이터 표준 설계 가이드가 제공돼야 한다.
AI 학습용 데이터 구축 사업은 구축 기간이 짧아 데이터 획득단계와 구축단계가 끝나면 어노테이션 항목 정보를 추가 획득하거나 수정하는 데 한계가 있다. 즉시 활용 가능한 수준의 데이터 품질 확보를 위해서는 설계단계부터 획득·가공·구축에 이르는 전 과정에서 철저한 데이터 품질 관리가 이뤄져야 한다. 주관기관인 과기정통부와 NIA 관리 감독이 필요하다.
사업 운영 관점에서는 충분한 구축 기간 확보와 행정 간소화가 지원돼야 한다. 사업 목표인 고품질 AI 학습용 데이터를 구축하기 위해서는 8개월 이상의 충분한 구축 기간이 확보돼야 한다.
데이터 댐 사업이 국가 예산을 사용하는 것이므로 명확한 관리가 필요하다. 관리요소가 지나치게 많아 행정처리에 너무 많은 비용과 시간이 소요되고 있는 것이 현실이다. 관리기관에서 잦은 규정 변경으로 인해 재작업이 빈번하므로 이에 대한 개선이 필요하다. 올해 사업에는 주 단위 보고가 아닌 월 단위 보고를 통해 행정업무를 축소하고 본연 목적 AI 학습용 데이터 구축에 매진하는 환경이 조성되길 바란다.
◇좌장=데이터 댐 등 데이터산업 활성화를 위해 기반이 되는 클라우드 역할도 중요하다. 데이터 경제 시대, 클라우드는 어떤 역할을 하고 어떤 기회가 있을 것으로 기대하는가.
◇배희숙(한국클라우드사업협동조합 이사장)=세계를 무대로 서비스를 기획하는 기업용(B2B) 서비스형소프트웨어(SaaS) 기업에 ICT 세상을 혁신할 기회가 다가오고 있다. 데이터가 경제적 가치를 만드는데 중요한 자산이라는 것을 모두가 인식하게 만드는데 그동안 산·학·정의 노력이 있었다. 다소 늦은 감은 있지만 다행이다.
정부가 보유한 공공데이터를 민간에게 공개하면 산업적 파급효과가 높을 것이며, 대용량 공공데이터를 우선 공개하자는 논의는 오래 전부터 있었다. 지금은 분산된 개별데이터를 관련 있는 정보로 패키지해 산업에 개방하는 단계까지 발전했다. 막대한 예산이 지속 투입되는 과정에 좋은 품질로 융합서비스를 만들어가는 것이 기업의 역할이다.
앞으로 B2B SaaS 기업에 수많은 기회가 올 것이다. 조합도 SaaS 기업들과 연대해 양질의 품질을 만들어가는데 힘을 모으려 한다. 비투엔 등 데이터 전문기업이 조합에 함께하는 만큼 많은 시너지를 만들 것으로 기대한다.
◇좌장=데이터 댐 구축 이후 이를 어떻게 활용할 것인지, 어떤 서비스를 내놓을 것인지 미래 모습에 대한 논의가 필요하다. 데이터 댐 정책은 어떤 방향으로 집행해야 하나.
◇고윤석(한국지능정보사회진흥원 본부장)=두 가지 방향으로 정책 방향을 잡아야 한다. 우선 '데이터 범용적 활용'이다. 지금은 우리가 구축한 데이터를 주로 기업이 활용한다. 앞으로 기업을 넘어 초·중·고·대학, 일반에 이르기까지 모든 국민이 데이터를 활용하도록 활용성을 높이는데 정책 역량을 집중해야 한다.
제품과 서비스에 특화된 데이터셋 구축이 필요하다. 지금까지는 모든 산업에서 필요로 하는 공통적인 데이터를 구축하는데 정책 역량을 집중했다. 이제는 특정한 제품과 서비스를 개발할 수 있는 데이터까지도 구축해야 한다.
◇권헌영=앞으로 데이터 정책은 데이터 거래와 유통기반을 위한 판단 기준 마련과 관련 법적 문제를 해결하는 방향으로 결정해야 한다.
데이터 거래와 유통을 위해 데이터 가격을 산정하기 위한 판단 기준과 체계를 마련해야 한다. 데이터 가치에 대한 판단 기준과 체계를 만들면 데이터 거래가 증가할 것이다.
데이터와 관련된 권리관계를 명확하게 정리해야 한다. 데이터는 기존 물건과 다르게 복제가 가능하다. 원 데이터와 복제된 데이터 사이의 차이가 존재하지 않는다. 데이터 소유권과 이용권에 대한 명확한 법적 관계를 정리해야만 데이터의 거래 이후 관련 법적 분쟁 소지가 줄어든다.
◇강용성=데이터 댐과 함께 산업 생태계도 함께 고민해야 할 때다. 우리나라 데이터, AI SW 기업은 중소기업, 스타트업이 많다. 이들 기업에 공공은 사업 기회를 제공하는 중요한 시장이다. 공공 시장 진입 관문에 존재하는 조달청의 역할이 중요하다. 데이터, AI, 클라우드 사업은 한국 경제를 주도할 미래 핵심 사업이다. 기존 최저가 유도 방식 조달이 아닌 산업을 육성해 나갈 혁신 조달 시행이 중요하다. 입찰 업체 기준·평가 기준이 기존 조달 사업과는 다른 차원에서 실행돼야 한다. 데이터 댐 등 정부 주도 사업을 통해 데이터, AI SW 기업이 동반성장하도록 조달 생태계가 함께 마련돼야 한다.
◇양기성=데이터 댐에 축적된 데이터를 잘 활용해 기업이 새로운 제품·서비스를 창출하고 국민이 체감할 수 있는 성과를 확산해나가도록 지원하는 것이 중요하다.
AI 학습용 데이터의 대규모 개방과 함께 'AI 데이터 활용협의회'를 출범시켜 데이터 댐의 데이터를 적극 활용하고 성과를 공유·확산하는 한편 데이터 품질을 지속적으로 향상시켜 나갈 계획이다.
한국어 음성데이터, 국내 도로주행 데이터 등 '한국형 AI 학습용 데이터'가 대폭 확충됐다. AI 스피커나, 자율주행차 등 국민이 체감하는 AI 서비스 개발과 성능향상이 가속화될 것으로 기대한다. 데이터 댐의 데이터가 전 산업과 사회로 흘러가 활용되도록 실증사업, 시범사업은 물론, 경진대회 등을 통해 정책적 뒷받침할 예정이다.
◇좌장=기업과 정부에서 데이터 프로젝트를 다수 수행하면서 인력난 문제도 불거진다. 어떻게 인력 문제를 해결해야 하나.
◇조광원=중소벤처기업이 인재를 확보하고 유지하도록 국가 차원에서 지원 정책이 강화돼야 한다. 중소기업이 인재를 키우고 싶어도 공공기관, 대기업 선호 현상이 심해 지원율이 낮다. 어렵게 채용해 3∼5년 간 업무를 가르치면 대기업으로 유출되는 악순환이 반복된다.
중소기업에 근무하는 인재를 위한 정부차원의 적극 장려정책이 필요하다. 급여의 50%를 3년간 지원하고 과감한 세재 혜택 등을 비롯해 인재를 채용하는 기업에 대한 보조금 지급, 세재 혜택 등이 이뤄져야 한다. 대기업 인력 유출 문제 해결 방안으로 데이터 전문인력의 FA제도 도입을 제안한다. 스포츠 분야처럼 일정기간 자신이 속한 기업을 떠나 대기업으로 갈 경우 해당 기업이 중소기업에 일정 대가를 보전하는 방식이다. 중소기업도 일정 보전받은 비용으로 재고용하는 등 중소기업의 고용창출도 계속될 것이다.
◇권헌영=새롭게 관련 인재를 양성하는 것뿐 아니라 기존 인력에 대한 보수교육(재교육)으로 현 상황에 적극 대응해야 한다. 데이터 관련 교육은 실무자뿐 아니라 경영층과 중간관리자층에도 이뤄져야한다. 경영자와 관리자가 데이터 중요성을 인지해야 실질적 프로젝트가 가능하다. 지금은 데이터 관련 논의 사항 발생 시 데이터사이언티스트만 찾는다. 최고경영자(CEO)부터 임원까지 전 구성원이 데이터 중요성 등을 인지하기 위해 정부 정책도 지원돼야 한다.
◇양기성=AI와 데이터 등 디지털 신기술 활용 역량을 갖춘 전문인력뿐 아니라 특정 도메인 지식을 보유하면서 디지털 신기술 활용 역량을 가진 융복합 전문가 양성이 중요하다.
각 분야에 전문지식을 갖고 데이터 분석·활용 역량을 가진 융복합 전문가 양성을 위해 재직자 대상 데이터 전문교육을 실시한다. 데이터 분야 청년 인재 교육과 함께 AI 대학원과 이노베이션 스퀘어 등을 통해 산업현장에 필요한 데이터 전문가 양성에 노력 중이다.
향후 산업계에서 필요로 하는 데이터 과학자, 데이터 분석가, 개발자 등 인재양성에 집중하는 한편 데이터 시각화·가공 분야 등 신규 분야 전문인력 양성도 병행할 계획이다.