[기고]“글로벌 4차 산업 경쟁, 공공데이터 품질이 좌우한다”
OECD 공공데이터 지수(OURdata Index)는 국제 공공데이터 헌장(IODC)에 기초해 OECD 조사 대상국의 공공데이터 정책 평가를 위해 개발된 지수로 2년마다 측정된다. 공공데이터 관련 정부의 노력을 ‘데이터 가용성(Data Availability)’, ‘데이터 접근성(Data Accessibility)’ 및 ‘데이터 활용을 위한 정부 지원(Government support for data re-use)’의 세 가지 분야로 평가한다.
행정안전부에서 운영하는 공공데이터 포털에는 파일 데이터, 오픈 API, 표준 데이터 셋 등을 포함해 약 7만7000여건 이상의 데이터를 공개하고 있다. 이는 각 공공기관이 생성한 데이터를 개방한 것으로, 개별 기관이 별도로 공개하는 자료도 있으니 공개된 공공데이터는 이보다 훨씬 많은 양일 것이다.
양적 성장에 걸맞은 질적 성장 필요
네이버에서 '데이터 오류'를 입력하고 검색하면 데이터 품질 미흡으로 인한 뉴스들을 어렵지 않게 접할 수 있다. 그리고 이런 데이터 품질 오류로 인한 영향이 결코 멀리 있지 않다는 것을 느낄 수 있다.
공공기관의 정보화 사업 및 공공데이터 품질수준평가 등을 통해 데이터 품질이 많이 개선됐지만 아직도 미흡한 부분이 상존한다. 다년간 공공데이터 품질관리를 전문적으로 수행하면서 경험한 필자의 입장에서 보면 우리나라의 공공데이터 품질 수준은 극과 극으로 평가하고 싶다. 얼마 전 관세청에서 자체 품질수준을 진단한 뉴스가 나왔다.
이에 따르면 관세청은 매일 실시간으로 처리돼야 하는 수출입 통관·물류 데이터를 수집하고 관리한다. 지난해까지 행정안전부의 공공데이터 품질관리 수준 평가에서 4년 연속 1등급을 유지했다. 올해는 금융정보분석원(FIU), 한국은행 등으로부터 받은 데이터에 대해 오류를 제거하는 정제 작업을 진행했으며, 그 결과 지난해 0.0167%였던 데이터 오류율을 0.0001%로 낮춰 정확도를 높였다.
오류율 0.0001%는 100만 개의 데이터 중에 한 개 틀린 수준이고, 완벽하다고 할만하다. 관세청은 우리나라 공공기관 중에서도 데이터 품질관리를 가장 잘하는 기관에 속한다. 관세청뿐만 아니라 특허청, 조달청, 산림청 등도 데이터 품질관리를 잘 수행하는 기관들이다.
이들은 10여 년 전부터 데이터 품질 제고를 위해 기관 내 제도, 조직, 인력 및 시스템을 정비하고 지속적으로 데이터 품질을 높이기 위해 노력했다. 데이터 품질의 중요성을 인식하고, 이를 지원할 조직의 규모가 있고, 예산이 있어 자체적으로 충분히 개선이 가능했다.
이처럼 조직의 규모가 큰 기관은 일시적으로 오류 데이터가 발생할 수는 있지만 장기적인 데이터 품질관리를 통해 적정 품질수준을 제고하고 있다. 단지 우려하는 것은 규모가 작은 다수의 지방 공기업 및 지방자치단체다.
공공데이터 품질관리 수준평가 제도
정부는 2018년부터 지속적으로 공공데이터에 대한 수준평가를 수행해 기관이 자체적으로 보유한 DB의 데이터 품질 평가를 수행하고, 이를 통해서 보유 데이터 및 개방 데이터에 대한 품질을 높일 수 있도록 유도하고 있다.
2018년 45개 기관에서 시작해 2022년 약 680여 개 기관으로 확대됐고, 향후 전 공공기관으로 확대·시행할 계획을 갖고 있다. 그 결과 시행 초기보다는 많은 기관이 데이터 품질의 중요성에 대해 인식하고 있으며, 자연스럽게 데이터 품질도 점차 개선되고 있는 것으로 평가되고 있다.
앞서 이야기한 관세청 사례처럼 역량이 충분히 갖춰진 대규모 기관의 경우 당위성과 충분한 시간만 주어지면 자체적으로 데이터 품질을 충분히 높일 수 있다. 문제는 전체 공공기관의 80% 이상을 차지하는 소규모 공공기관이 생성하는 데이터의 품질이다. 이를 개선하기 위한 몇 가지 제언을 하고자 한다.
소규모 피평가 기관에 대한 전문 기술 지속 지원
공공데이터 수준평가 대상이 되는 약 700여 개의 기관 중, 중앙행정기관 45여 개, 광역자치단체 17개, 대규모 공기업 약 40여 개를 제외하면 기초지방자치단체를 포함한 나머지 약 500여 개의 공공기관은 정보 자원에 대한 투자가 너무 미약하다.
특히 기초지방자치단체의 경우 공공데이터 품질관리 수준평가를 담당하는 공무원이 IT에 대한 지식이 전무한 경우가 허다하다. 오죽하면 매년 상당수의 기관이 행정안전부에서 수행하는 ‘평가’를 포기하는 경우도 발생하고 있다. 자신이 감당할 수 있는 역량을 초과한 일이 부여됐다고 생각한다. 그리고 이런 결정은 담당자 혼자서 내리지는 않았을 것이다. 기관 내에서도 어찌할 수 없는 상황이었을 것이라 판단된다.
그러나 정부는 각 공공기관에서 매년 더 많은 데이터를 개방·오픈할 것을 요구한다. 이런 상황에서 데이터 관리체계가 잘 유지되고 인공지능(AI) 서비스, 예를 들면 챗GPT(ChatGPT)의 소스가 되는 양질의 데이터가 생성될 것이라고 믿는 것은 이성적이지 않다고 생각한다.
최근 챗GPT가 훈민정음을 이황이 만든 중국 고대의 어휘라고 대답하거나 신사임당이 조선의 23번째 왕이라고 잘못 대답해 화제가 됐다. 이 같은 오류의 발생은 AI 학습용 데이터의 품질 오류에서 기인한 것으로, 챗GPT가 잘못된 데이터를 학습한 결과다.
데이터 품질을 개선하려면 우선 가장 하부에 위치하는 말단 조직의 데이터 관리를 지원할 수 있는 체계를 수립해야 한다. 전국 지방 거점 기술 지원 사무소를 만들고 기초지방자치단체 및 소규모 공공기관이 스스로 데이터 관리 여력이 생길 때까지 전문 기술을 지원하는 체계를 만드는 것을 제안한다. 수준평가 기간에만 지원하는 구조가 아니라 최소 3년에서 5년 상주 조직을 만드는 것이다. 기관이 데이터 관리체계 및 데이터 품질을 개선 하고자 하는 의지만 있다면 충분히 믿고 의지할 수 있는 조직을 만들어 지원하는 것이다.
데이터 품질 평가, 연중 상시 평가로 개선
현재 공공데이터 수준평가는 10월 31일을 기준으로 평가하고 있다. 피평가 기관은 매년 6월에 기관이 보유한 DB 중 평가 대상 DB가 선정되면, 대상 DB를 기준으로 자체 평가를 수행하고 10월 31일까지 평가 증적 자료를 제출하게 된다. 이 증적 자료를 바탕으로 평가를 하게 되는데 대부분의 기관은 평가 기간 중에는 제출할 자료를 준비하고 10월 마지막 1~2주에 그동안 준비한 평가 결과를 제출한다.
공공데이터 수준 평가 10개 지표 중에는 개방 데이터 평가가 포함돼 있다. 이 지표는 다른 지표와는 다르게 자체 평가 없이 중앙에서 공공데이터포털에 개방돼 있는 데이터 목록의 데이터 값 수준을 일괄 진단해 평가 점수로 적용한다. 평가해야 할 데이터 양이 많아 보통 10월 1일 기준으로 수집한 데이터를 기준으로 평가하는데, 통상 7월 말 또는 8월 초에 1차 평가를 하고 10월에 2차 평가를 한다. 기관은 1차 평가 시 지적된 오류 데이터를 개선하여 10월 평가를 대비하고 10월 평가 점수를 최종 평가 점수로 인정받는다.
그런데 평가를 진행해 보면 7~8월 사이에 수행하는 1차 평가 점수가 10월에 평가하는 2차 평가에 비해 점수가 현저히 떨어지는(데이터 품질이 나쁜) 현상이 매년 발생한다. 동일한 데이터가 다음해 7월이 되면 또다시 낮은 평가 점수를 받고, 10월이 되면 평가 점수가 높아지는 현상이 반복되고 있다. 무언가 이상하다.
전년도 10월에 개선된 데이터가 왜 차년도 7월에 품질이 저하되는가? 이 질문에 대해서 실제 조사를 해보지 않았기 때문에 정답을 알 수는 없지만 유추해 볼 수는 있다.
기관에서 생성해 개방하는 데이터의 오류는 생성 원인을 개선한 것이 아니라 최종 데이터 값을 보완한 것이 아닐까? 그래서 다음 해에 다시 평가하면 새롭게 수집한 데이터에서 오류가 발생하는 것이 아닌가?
공공데이터 품질수준 평가는 개방 데이터만 평가하는 것이 아니다. 개방 데이터는 일부이고 전체 평가 영역 중에서 개방 데이터가 차지하는 비중은 10% 남짓하다. 데이터 관리 계획, DB 설계 산출물 일치, 데이터표준 적용률, 데이터구조 현행화, 데이터 연계, DB 값 진단 등 데이터 품질과 관련된 다양한 항목을 평가한다. 그런데 우리가 4차 산업의 원유라고 그렇게 중요성을 강조한 데이터의 품질이 특정 기간에만 높으면 되는 것일까?
현재 공공데이터 품질관리 수준평가는 6월에 시작하고 10월까지 평가를 받는 형태로 진행된다. 기간이 다소 짧아 현재와 같은 상태에서는 데이터 품질 오류에 대한 원인을 해결하기에는 어려움이 많을 것으로 사료된다.
데이터 품질평가제는 연중 수시 평가로 바뀌어야 한다. 공공데이터 품질관리 수준평가 사업을 진행하기 위한 예산이 매년 초 편성되기 때문에 어쩔 수 없다는 것은 알고 있다. 다년간 수행하는 사업으로 예산을 편성받아 집행하는 것이 최선이겠지만, 이렇게 예산을 편성받기 어렵다면 기관은 반드시 연중 품질관리를 해야 하고 이를 점검하는 것은 별개라는 관점으로 접근을 해야 한다. 매년 10월 말 기준으로 어느 한 시점의 평가가 아니라 기관이 연중 관리한 데이터의 품질을 평가받도록 제도를 개선할 필요가 있다.
품질관리의 목표는 정부의 데이터 개방 건수가 아닌 정부가 개방하는 데이터의 품질 점수를 대다수의 국민이 신뢰할 수 있도록 해야 하는 것이다. 데이터 품질은 완벽할 수 없다. 모든 프로그램은 완벽할 수 없다. 공공기관이 생성하고 제공하는 공공데이터 또한 항상 완벽할 수는 없다. 하지만 공공기관이 제공하는 공공데이터에서 오류가 발견됐을 때 이를 적절한 시점에 적절한 방법으로 개선하는 절차가 존재하고 개선하는 것을 믿는다면 그것으로 족하다고 생각한다.
청년자원 활용, 데이터 전문 일자리 창출
2020년 7월 정부는 한국판 뉴딜 일자리 사업을 했다. 새로운 단기 알바로 급부상한 ‘데이터 라벨링 작업’을 포함해 다양한 사업을 수행하였다.
4차 산업을 위한 ‘데이터 댐’ 구축 사업은 그때만 필요했고 지금은 필요 없는 사업이 아니다. 양질의 데이터 댐을 구축하기 위해서는 최소 10년 이상을 내다보고 습관화, 체질화될 때까지 지속적인 지원이 필요한 사업이다.
청년들에게 단기 일자리를 제공하는 것이 아니라 청년들이 양질의 데이터를 생성하는데 직접 참여해 데이터 전문 기술을 익히고, 이를 바탕으로 민간 또는 공공 분야에서 기술이 뒷받침된 양질의 일자리를 제공해야 한다. 우리 사회에 지속적으로 고품질의 데이터를 만들어가는 체계를 구축하기 위한 일을 만들어야 하는 것이다.
우리가 사용하는 거의 대부분의 정보시스템은 데이터 구축을 위한 DB 설계도 작성, DB 설계도 유지 보수, 데이터 용어 표준화, 데이터 품질 진단 및 개선 등 다양한 데이터 관련 전문적인 일들을 필요로 하고 이는 쉽게 얻을 수 없는 고급 기술들이다.
그동안 정부는 데이터 품질수준평가 및 진단 개선 등의 사업을 하면서 데이터 관련 축적된 노하우와 데이터 관련 고급 인재들을 양성해 왔다. 그중 다수의 기술 인재들이 정년을 맞아 사회에서 밀려나고 있고 아쉽게도 그들이 가진 전문 기술은 젊은 청년들에게 이전이 이뤄지지 않고 있다.
지속적으로 인생 선배의 지식이 젊은 청년에게 전달되고, 이 기술이 양질의 고급 직업으로 정착되는 선순환 구조를 만들어 추가적으로 국가 데이터 정책에 대한 확신과 믿음을 가지고 뚝심 있게 정책을 추진할 정책 리더가 필요한 시점이다.
▶ 관련 기사 : 데이터넷