비투엔 기술기고

[기고] 빅데이터 활용을 위한 비식별화 전략

알 수 없는 사용자 2017. 4. 21. 13:44





비식별화 왜 필요한가?


기업들은 데이터가 중요하다는 것을 아주 오래 전부터 알고 그것을 관리하고 보관해 왔습니다. 이렇게 소유한 비즈니스에서 발생하는 정형 데이터 뿐 아니라 로그, 센서 등 비정형 데이터까지 관심을 갖게 되기까지 얼마 걸리지 않았습니다. 또 어떤 기업들은 비정형 데이터에 더 관심을 갖고 아무도 모르게 수집해 온 것도 사실입니다. 이제는 더 이상 기업 내 데이터만을 분석하였던 과거와는 달리 서로 앞다퉈 다른 기업들과 데이터를 주고 받아 영역을 확장하는 것만이 경쟁력이 있다고 믿는 시대에 와 있습니다.


하지만 데이터를 공유하려고 기를 쓰는 기업들 앞에 개인정보보호법이라는 커다란 장벽이 존재했습니다. 개인정보에 대해 개인의 동의 없이 제3자에게 제공할 경우 법적인 문제가 발생할 수 밖에 없습니다. 이런 이유 때문에 개인정보에 대한 비식별화가 반드시 필요하며 이 글을 쓰는 이유입니다. 행정자치부가 발간한 개인정보 비식별 조치 가이드라인의 내용을 살펴보면 비식별화된 개인정보는 개인동의 없이도 정보수집 및 제3자 제공이 가능하게 되어 기업들에게는 반가운 소식이 아닐 수 없습니다.




비식별화에 편법은 없다.


비식별화(De-identification)는 데이터가 가지고 있는 정보를 일부분 삭제, 대체 처리하여 특정개인을 식별할 수 없도록 하는 방법입니다. 기술적으로는 무작위 방법(randomization)과 일반화 방법(generalization)이 있으며, 정보의 특성과 배경 정보의 유무에 따라 적절히 조합해서 처리할 수 있겠습니다.


여기서 우리는 비식별화만 하면 기업들끼리 서로 데이터를 결합하는데 아무런 문제가 되지 않을  거라는 오해를 하기 쉽습니다. 예를 들어, 대체키를 암호화를 통해 비식별화하고 결합 후 복호화해서 원래 데이터와 결합한 후 대체키를 삭제하는 방식으로 시스템에 식별한 흔적만 없애버리면 외부 데이터를 가져와 사용할 수 있을 것이라는 기대를 합니다. 어떻게든 기존의 식별 데이터와 연결해야 데이터를 활용하는 효과가 더 커지기 때문에 기본 원칙을 간과한 것 입니다. 하지만 이것은 아무리 효과가 단보 되어도 개인을 식별하는 과정을 중간에 거치기 때문에 개인정보보호법을 위반하게 되는 사례가 됩니다. 개인정보는 식별하는 순간 어떤 기발한 아이디로 처리하였다 하더라도 식별한 그 자체로 불법입니다.


비식별화의 본래 취지는 기업들이 가지고 있는 데이터에 대해 개인을 식별하지 않는 범위에서 서로 결합하여 사용하자는 것이 가장 큰 틀입니다. 쉽게 말하면 나와 관련된 데이터를 라는 개인정보를 지우고 동수라는 가상의 개인정보로 덧입혀 맘껏 데이터로 활용하자는 것 입니다.


비식별화된 데이터는 비식별화 조치 이후에는 비식별화된 상태로만 비즈니스에 활용이 되어야 한다가 원칙입니다.



데이터 결합 어떻게 할 것인가?


이제 비식별화된 데이터는 어떻게 결합 할 것인가?”가 중요한 과제로 남았습니다. 데이터에 대해 1:1로 결합 하는 방식과 N:N로 결합하는 방식 두 가지로 이야기 해보려고 합니다.



1) 1:1 결합

1:1 결합은 식별자가 있는 원본정보의 데이터 Row를 그대로 보존하는 집합으로 결합하고자 하는 방식입니다. 아래 행정자치부 자료에서 확인할 수 있듯이 A사와 B사가 결합하고자 하는 데이터에 대해 동일한 알고리즘으로 이용하여 식별자를 임시 대체키로 변환처리 합니다. 다음은 외부전문기관에서 임시 대체키를 통해 결합하여 최종적으로 임시 대체키를 삭제한 후 A,B사에 각각 결합정보를 제공하는 방식입니다. 이 방법은 원본 데이터 Row를 보전한다는 장점은 있으나, 외부기관을 이용해야 하는 불편함이 있습니다






2) N:N 결합

N:N 결합은 일반화 방식으로 비식별화하는 것으로 데이터를 그룹핑한 집합으로 결합하는 방식입니다. 아래 그림과 같이 A사와 B사가 지역+나이+성별로 그룹핑한 집합을 만들고 비식별화 Key를 생성합니다. 이 때 비식별화 Key는 동일한 알고리즘을 적용하여 생성 후 서로 매칭하여 정보를 결합하는 방식 입니다. 이 방법은 외부기관을 이용하는 번거로움은 없지만 원래 데이터를 보전하지 못하고 범주화했기 때문에 타겟 고객에 대한 효과성은 떨어질 수 있습니다.






 

비식별 데이터 활용 전략을 세우자.


1:1 결합 방식이든 N:N 결합 방식이든 데이터를 활용하기 위해서는 비즈니스 활용 목적을 위해  Segmentation 되어야 합니다. Segmentation 하지 않고 기존의 식별 데이터와 매칭하는 방법은 없기 때문입니다. 1:1 결합은 Segmentation할 항목을 결합 이후 결정할 수 있는 반면, N:N 결합은 집합을 그룹핑 하면서 결합Key를 만들 때 결정해야 하는 차이점만 있을 뿐입니다.


결국에는 비즈니스에 맞게 Segmentation를 잘 할 수 있도록 유연하게 만드는 것이 필요합니다. 그리고 Segmentation을 최대한 개인의 특성이 드러날 수 있을 정도로 데이터 조각을 세분화하는 기법이 필요합니다. 그렇게 해야 해당 Segmentation로 개인을 Targeting 했을 때 효과를 보장할 수 있습니다. 나와 거의 유사한 특성을 가지는 동수 Segmentation 하는 것이 가장 중요한 Point라고 할 수 있겠습니다