비투엔 기술기고

센서 데이터에 대한 품질관리 접근 전략_ SIS본부 이해곤 이사

알 수 없는 사용자 2015. 9. 1. 13:21




센서 데이터에 대한 품질관리 접근 전략



오늘은 빅데이터 중 센서 데이터에 대한 품질에 대해 추진하고 있는 사항을 얘기하고자 한다. 현재까지는 사람에 의해서 발생되는 업무 중심 정형화된 데이터로 6δ(시그마) 수준의 품질을 목표로 하여왔고 이를 위해 R-DB를 운영하고 있는 주요 기관(기업)에서는 데이터 품질관리 체계를 구축하여 지속적으로 관리 수준을 높여가며 운영하고 있다. 

  

데이터 품질관리 분야에서 10여 년간 다양한 프로젝트 수행과 데이터관리 인증심사원으로 고민하고 있는 필자의 입장에서 보면, 그 동안의 노력에 의해 현재 국가적인 법 제도가 마련되어 시행되고 품질 진단 개선을 위한 데이터 품질관리 가이드가 제공되고 있어, 각 기관(기업)에서는 이를 준용(활용) 하여 기관에 맞게 운영할 수 있는 품질관리 인프라(품질관리체계, 수행 가이드, 시스템 구축 사례)는 충분히 마련되었다고 할 수 있다. 

  

그런데 이제는 그 동안 미루어 놓았던 빅데이터 측면의 품질에 대해 고민을 해야 하는 때가 된 것 같다. 최근에 우리 주위에는 빅데이터를 활용한 서비스 모델이 많이 시도되고 있다. 이런 점에서 대용량의 소셜 데이터나 센서 데이터 등에 대한 분석 정보 활용의 가치 향상을 위해서 빅데이터에 대한 데이터 품질 측면(정보 신뢰도)에 대한 연구 및 방안 마련이 필요한 때라고 본다.


이번 칼럼을 통해 모든 것을 얘기할 수는 없고 간단하게나마 현재 진행 중인 센서 데이터에 대한 사항을 같이 공유하고자 한다.



오늘 주제의 내용으로서 다음과 같은 질문과 개선방안을 생각해본다. 


궁금증 1_ 센서 데이터란 어떤 특징이 있는 데이터인가?

궁금증 2_ 데이터 품질 측면에 있어 기존의 업무 중심 데이터와 비교할 때 

품질관리의 애로사항과 개선방안은 무엇일까?



[기상관측 센서 데이터]



  • 기상정보 기상 및 해양관측 탑재를 통해 획득된 관측 자료는 지상국에서 1차 수신을 하고 영상처리 과정을 거쳐 실제 사용할 수 있는 자료로 가공 



[상수도 단계별 수질센서 데이터 수집]

 


  • 댐->취수장->정수장->가압장->배수지->수용가 단계별 센서를 통한 수질을 측정함


저는 현재 모 기관에서 실시간으로 수집되는 센서 데이터의 품질관리를 체계적으로 하기 위해 분석, 개선, 관리 인프라를 구축하고 있어서 기존 품질관리와는 조금은 다른 측면들과 개선방안을 고민하고 있어 아래와 같은 사항들을 공유하고자 한다.



센서 데이터 측면에서 특징을 보면,


1. 실시간 초 단위(or micro second)로 지속적으로 발생


2. 특정 시점(예, 분 단위, 시간 단위)의 정보만 DB화 가능


3. 전체 데이터 측면이 아닌 정보로서 활용가치(대표성)가 있는 수준의 정보만 수집

※ 향후 기술 요건이나 DB 용량의 향상에 따라 그 범위가 넓어질 수 있을 거라 봄


4. 아날로그 데이터로 디지털화 작업 병행


5. 센서 데이터 수집 장비의 상태(STOP, 교체) 등에 의한 오류 발생

※ 오류: 시간적으로나 물리적으로 사람이 조치할 수 없는 상황에 발생하고 또 유실되는 데이터가 일정 구간(시간) 내에서는 오류로서의 의미가 없는 경우(데이터 자체가 아닌 분석, 활용 측면) 존재


6. 빅데이터에 따른 일정 구간 정보의 오류가 발생하더라도 동일 정보로 유추가 가능함

※ 이유, 일부의 오류가 오히려 전체 정보를 왜곡 가능성 배제


7. 데이터 생명주기상 기계에 의한 “수집” 부분의 품질 제고 필요

- 수집 장비에 대한 알고리즘 관리(비즈니스 규칙의 정확성)

- 분석을 위한 수집 정보(시점, 데이터 량)에 데이터 적정성(통계적 유의성)



이러한 특징을 가지고 있는 현행 센서 데이터 운영 관리의 애로사항 몇 가지를 보면,


1. 지속적으로 발생하는 오류에 대한 관리가 매일 반복되어 비생산적으로 많이 발생


2. 대용량 데이터에 대한 수집 관점 위주로 구조가 구성되어 활용 관점의 어려움 존재


3. 실시간성 데이터로 인해 연계(개방) 제공 시 품질 개선(데이터 보정)으로 인해 제공 시점 의 수치와 분석 활용 시점의 수치가 상의할 수 있어 사용자 측면에서 오해의 소지가 있음   



센서 데이터의 품질관리 측면에 있어 개선사항을 정리해보면, 


1. 처리 성능: 수집 단계의 처리 성능, 활용 시점의 처리 성능을 고려한 데이터구조 논리/ 물리 설계 필요


2. 실시간으로 생성되는 센서 데이터에 대한 오류(추정)를 데이터처리 단계(측정->수집->저장->활용->공유)별 오류를 감지(모니터링) 하는 방안 마련 필요


3. 또한 데이터 보정(데이터 왜곡 방지)을 위한 신뢰성 있는 통계(MINING) 기법 도입

※ 사람의 수작업을 최소화할 수 있도록 위한 신뢰성 있는 유효값 도출

※ 가능한 자동 보정 및 수동 보정 기능 등


4. 검보정에 대한 데이터관리주체(오너십)를 명확히 하여 지속적으로 관리할 수 있도록 관리체계(지침) 마련 필요

※ 지속적이며 적시적인 보정 및 품질 관리 책임 강화


 

[ 오결측 상시 모니터링 화면 ]

 



결론적으로 센서 데이터 또한 100% 정확한 게 데이터 품질관리 입장에서 맞는다고 생각하고 출발하였으나 첫째로 수집 장비적인 요인, 장비 교체에 따른 불가피한 데이터 공백 등이 발생될 수 밖에 없고, 둘째로 전체 데이터를 수집하는 것이 아니라면 필요한 정보만 필요한 시점에 수집하는 특성 및 센서 데이터의 종류 등에 따라 다양한 품질관리 접근 방법이 필요함을 느끼고 이에 대한 R-DB 관리 수준의 지속적인 연구가 되어야 할 것으로 생각된다. 모쪼록 프로젝트를 성공리 완료한 후 최종 결과물에 대해서는 다음 칼럼시 공유하겠다.