비투엔 기술기고

[기고] 스마트하지 않은 데이터 활용법

yesroji 2022. 6. 28. 16:34

서동재 비투엔 AI연구사업팀 이사

어쩌면 여러분은 스마트하지 않는 데이터까지 활용해야 할 필요성을 전혀 느끼지 못할 수도 있다. 스마트시티 사업은 최신 기술을 이용해 눈길을 끄는 것이 중요하다고 생각되기 때문이다.

스마트시티 업계 종사자들은 수차례 전시행사를 진행하면서 참관객들이 ‘디지털 트윈’과 같은 3D 시각화를 선보인 부스에 환호했다는 것을 이미 알고 있다. 시각화 기술이 중요하다는 의견에 필자 역시 동의하지만, 그 이상으로 데이터를 스마트하게 하는 과정이 중요하다.

여전히 데이터를 스마트하게 활용한다는 점이 와닿지 않을 수 있다. 예를 들어 겉보기에는 화려하지만 입으로는 거짓말을 하는 사람이 있다고 가정해보자. 잠깐 바라보는 것은 좋으나 시간이 지날수록 그 매력은 떨어지기 마련이다. 이렇듯 데이터는 우리가 말하는 것처럼 일종의 의사결정 도구라고 할 수 있다. 그런 이유로 데이터를 스마트하게 잘 활용하는 것은 무엇보다 중요한 문제다.

다행히 스마트하지 않는 데이터도 쓸모 있는 데이터로 만들기 위한 방법은 있다. 데이터의 한계에 대한 인지, 데이터 저장 및 처리 과정의 중요성, 데이터 분석을 위한 전처리 방법을 알면 가능하다. 그럼 지금부터 단계별로 스마트하지 않는 데이터를 어떻게 좋은 데이터로 바꾸는지 알아보자.

데이터 한계에 대한 인지
데이터를 제대로 활용하기 위해서는 그것의 한계를 아는 것이 가장 먼저다. 분석 기획 과정에서 수집을 희망했던 데이터는 어느 순간에 대상에서 제외되는 경우가 허다하다. 분석에서 최고의 결과를 내기 위해선 주요한 데이터를 확보하고 그 특성을 아는 것이 중요하다.

[그림 1]에서 볼 수 있듯이 빅데이터 프로젝트를 추진할 때 어려움으로 ‘신뢰할 수 있는 데이터 확보(64.0%), ‘데이터 처리 속도(41.6%), ‘데이터 양(35%)’이 주요 원인으로 나타났다. 우리가 인지해야 하는 것은 ‘데이터 확보의 한계’뿐만 아니라 ‘데이터 양에 대한 한계’, ‘처리 성능에 대한 한계’ 등 데이터의 특성과 연관성이 높은 것들이다. 결국 정확한 데이터의 특성을 파악하고 그 특성에 맞는 대처가 필요하다.

그림1. 빅데이터 프로젝트 추진 시 고민(출처:마이크로스트레티지)

실제 프로젝트를 하면서 다양한 데이터의 한계를 봤다. 고객으로부터 데이터 제공이 어렵다는 통보를 받기도 하고, 데이터 수집 방식이 달라 추가 개발 이슈로 데이터를 받는 데까지 오랜 시간이 걸리기도 한다.

반면에 데이터 양이 너무 많아 수집이 어려울 거라 여겼지만 스마트한 처리 방법으로 활용 가능한 데이터로 바뀌기도 한다. 그렇게 수집한 데이터가 ‘버스 노선 최적화’ 융복합 분석에서 중요하게 사용됐고, 서비스에 꼭 필요한 데이터였기에 무엇보다 값진 경험이었다.

해당 데이터는 너무 용량이 커서 레거시 시스템에서도 활용할 수 없는 상태였음을 담당자와 협의하면서 알았다. [그림 2]에서 알 수 있듯이 우리 팀의 아이디어는 두 가지였다.

하나, (Big) 데이터를 잘게 쪼개는 파티션(Partition) 기법을 적용하자. , 데이터를 실시간 처리함으로써 적재 부하를 최소화하자. 이런 전략으로 데이터를 파티션화해 ‘데이터 접근(Data Access) 부하’를 최소화하고, 실시간 처리를 이용해 ‘데이터 적재(Data Upload) 부하’ 또한 낮춰 성능 이슈를 완전히 해결할 수 있었다.

그림2. 실시간처리를 이용한 데이터 확보 방안

데이터 저장·처리 과정 중요성
여러 한계를 극복하고 수집한 데이터라도 스마트하지 않는 데이터는 존재한다. 이를 개선하기 위해 데이터 저장·처리 과정이 중요하다. 한마디로 문제가 있는 원천 데이터를 스마트하게 가공하는 작업이 필요한 이유다.

만약에 센서 또는 사물인터넷(IoT) 기기에서 발생한 데이터가 값이 없는 상태로 데이터 허브로 유입된다면 다양한 문제가 발생한다. 이 같은 결측 데이터는 숫자 타입은 ‘0, 문자 타입은 ‘#’으로 기본적인 가공 작업을 수행한다. 이 방법은 데이터 처리에 대한 약속과 같은 것으로 값이 빈 상태로 계산되는 통계적 오류를 방지해 준다.

글로벌 기업인 구글과 마이크로소프트의 경우 다년간 인공지능(AI)을 위한 빅데이터를 모았지만, 정확도는 43%에서 83%에 불가하다. IT 리서치 기업 가트너는 빅데이터에 대한 품질 관리는 정형 데이터 위주이기 때문에 분석 결과의 신뢰성이 떨어진다고 말한다. 비정형 데이터 특성상 수집 과정에서 오류 또는 손상이 빈번하다. 그렇게 때문에 데이터 허브에서는 데이터를 스마트하게 개선하는 데이터 처리 과정이 필수적이다.

[그림 3]에서 볼 수 있듯이 대구시에서는 버스 하차 태그 데이터가 33%밖에 존재하지 않았다. 하차 태그를 하지 않아도 추가 금액이 부가되지 않기 때문에 나타난 현상이었다. 그렇다고 분석가로서 67%나 되는 하차가 없는 승차 데이터를 제거하는 판단을 내릴 수는 없다.



그림3. 대구시 버스 하차 태그 비율

시민들의 버스 이용 패턴을 분석하기 위해 없는 하차 데이터를 만들어야 하는 상황이었다. 우리는 우선 데이터가 가진 속성들의 맥락을 연구하기 시작했다. 그리고 발생할 수 있는 사례별로 하나씩 하차 정보를 찾아 나가는 방식으로 가능한 많은 하차 데이터를 만드는 과정을 반복했다.

그림4. 버스 승하차 맥락 연구

데이터 분석 위한 전처리
데이터의 저장·처리 과정을 통해 이제 좋은 품질의 데이터를 만들 수 있게 됐다. 하지만 데이터 품질로서는 결점 없는 데이터가 됐더라도 분석에 적합한지는 다른 문제이다. 적합한 데이터는 이미 파악이 끝나 분석가의 고민거리로 올라오지 않는다. 마지막 남은 불완전한 요소를 스마트하게 하기 위해서 데이터 분석의 ‘전처리’ 과정이 필요하다.

데이터 전처리 과정에서 가장 중요한 문제는 ‘가능성과 근성’이라 할 수 있다. 데이터를 더 효율적으로 사용할 수 있는 가능성에 대해 합리적으로 접근하는 훈련이 돼야 하고, 그 훈련된 방식을 지속적으로 해내는 근성을 갖춰야 가능하다.

 

그림5. 데이터분석가의 데이터 전처리 (출처:포브스)

데이터 분석 전처리 사례로 경찰청의 신고 데이터의 업샘플링(upsampling)을 했던 경험을 소개한다. 업샘플링 기법은 실제보다 더 자주 데이터가 수집된 것처럼 만드는 과정이다. 신고 데이터 분석을 위해 우선 지도상의 50m × 50m 픽셀의 공간격자를 만들었다. 그리고 범죄에 대한 안전도를 1시간 단위로 공간격자별로 예측하는 것이 분석의 목적이었다.

이렇게 세밀한 조건으로 안전도를 예측하다 보니 1시간 동안 특정 공간격자에 신고가 발생할 확률이 20% 이하로 떨어졌다. 이런 신고 데이터의 희소한 특성은 데이터를 확장할 수밖에 없는 당연한 이유가 됐다.

시간 범위도 특정 시점을 기준으로 신고 발생 전과 후에 영향력이 있다는 판단을 했다. 그리고 신고 발생 전후 24시간 내 시간까지 점차 가중치를 감소시키는 방식으로 데이터를 확장했다. 이러한 데이터 전처리 과정을 하지 않았더라면 분석의 정확도를 측정하지 못할 수 있었다. 그만큼 데이터의 특성에 맞는 데이터 전처리는 분석 과정에서 핵심이다.

 

그림6. 신고 데이터 전처리

데이터, 스마트하게 활용해야
지금까지 데이터를 스마트하게 활용하는 방법에 대해 단계별로 알아봤다. 이미 눈치챘겠지만 데이터 분석을 위해 데이터가 항상 완벽할 수는 없다.

중요한 사실은 데이터의 한계와 특성을 명확히 알아야 한다는 것이다. 그리고 데이터 허브가 가진 여러 기능(수집, 저장, 처리, 분석, 수명주기 등)을 이용해 데이터를 활용할 수 있는 상태로 지속적으로 관리해야 한다. 이러한 과정이 모두 완료되고 나서야 데이터 분석을 통해 최고의 결과를 얻을 준비가 된 것이다.

스마트시티 데이터 허브의 핵심은 데이터를 얼마나 많이 확보하는지가 아닌, 데이터를 어떻게 스마트하게 활용할 것인지에 있다. 결론적으로 데이터를 스마트하게 활용하는 궁극적인 목적은 시민에게 필요한 융복합 서비스를 만들어 도시문제 해결에 활용하도록 하는 것이다.

 

▶ 관련 기사 : 데이터넷