비투엔 기술기고

[전문가 기고] Business Insight를 위한 데이터 분석 - 비투엔컨설팅 김문영 상무

알 수 없는 사용자 2014. 10. 6. 18:21




1. 데이터가 제공하는 무한한 기회와 전략적 자산으로서의 데이터

기업 전반에 걸친 정보시스템에 많은 투자가 이루어지면서 전사적으로 데이터를 수집할 수 있는 능력이 향상되었다. 대부분의 기업은 비즈니스 경쟁력 제고를 위하여 데이터를 어떻게 활용할 것인가에 주목하고 있으며 전통적인 데이터웨어하우스 뿐 아니라 빅데이터에 이르기까지 관련된 기술의 발달도 더욱 강력해졌다. 근래 들어 데이터 분석을 경영 의사 결정에 활용하고자 하는 경향은 더욱 강화되고 있으며 ‘과거에 어떤 일이 일어났는지’와 현재의 상태를 파악하는 분석에서 앞으로 어떤 일이 일어날 것인가 또는 앞으로 어떤 일을 하기 위해서는 무엇을 해야 할 것인가를 예측하는 분석에 더욱 무게가 실리고 있다.


그러나 ‘기업이 보유하고 있는 데이터를 정확하게 파악하고 최적의 의사결정을 내리는데 활용하고 있는가’란 질문에 자신 있게 대답할 수 있는 기업은 많지 않을 것이다. 또한, 데이터 분석에 대한 관심에 비해 분석 역량과 의사결정 문화 측면에서 대다수 기업들의 준비는 미비하여 많은 시행착오를 겪고 있는 것이 현실이다.


따라서, 이 글에서는 점차 중요성이 강조되고 있는 데이터 분석에 필요한 핵심 개념과 절차를 소개하고 데이터 분석적인 관점에서 문제를 이해하고 해결하기 위한 사람의 역할에 대해 말하고자 한다.



2. 데이터 분석적으로 사고하기 위한 핵심 개념

적절한 데이터를 찾아내고 분석하기 위해서는 통계학적 지식이나 Hadoop, Map-Reduce와 같은 IT 기술에 이르기까지 많은 기술들이 유용하게 사용된다. 그러나 좀 더 일반화되고 추상적인 분석을 위한 핵심 개념을 이해하는 것이 구체적인 작업과 알고리즘을 자연스럽게 이해하는데 많은 도움이 된다. 비즈니스 문제를 데이터 분석 작업으로 체계화하기 위해 많은 기법들이 연구되었으나 기본적으로 <표1. 데이터 분석기법의 기본 개념>으로 요약될 수 있으며 기본 개념에 충실한 의사 소통은 비즈니스 관계자와 데이터 분석가, 개발자간의 문제의 이해와 분석 결과 활용을 원활하게 하는데 많은 도움을 줄 것으로 기대된다.


<표1. 데이터 분석기법의 기본 개념>


개념

설명

분류와 계층 확률 추정

(Class Probability Estimation)

각 개인이 어느 계층(Class)에 속할지를 예측하는 것으로, 일반적으로 계층은 

상호 배타적이다. 분류 시 각 개인이 어느 계층에 속할지 결정하는 모델을 

생성하는데 이 과정에서 점수화 또는 확률을 추정한다. 

회귀분석

각 개인에 대한 특정 변수의 수치를 추정하거나 예측하는 것으로 분류와 관련이 

있으나 서로 다르다. 분류는 어떤 일이 일어날지 ‘여부’를 예측하는 것이고, 

회귀 분석은 어떤 일이 ‘얼마나 많이’ 일어나는지 예측하는 것이다.

유사도 매칭

알려진 데이터에 기반해 비슷한 개인을 찾아낸다. 유사도 매칭은 고객에게 

제품을 추천할 때 사용하는 가장 인기 있는 방법 중 하나로, 선호하거나 구매한 

제품의 관점에서 현재 고객과 유사한 사람들을 찾아내는 것이다.

군집화

(Clustering)

특정 목적이 없는 상태에서 유사도에 따라 개인들을 묶는다. 군집화는 “우리 

고객들이 자연스럽게 그룹으로 묶이는가?”와 같은 질문이 해당되며 문제에 

대한 기초 조사를 수행할 때 유용하다.

Co-occurrence grouping

장바구니 분석에 많이 사용되는 개념으로 개체에 관련된 거래에 기반해 개체 

간의 연관성을 찾아낸다. 즉, “일반적으로 어떤 상품을 함께 구매하는가?”와 

같은 질문이 해당된다.

Profiling

개인, 그룹, 전체의 전형적인 행위의 특징을 찾아내는 것으로 Fraud Detection 

등에 자주 이용된다.

Link Prediction

데이터 항목 간에 연결되어 있어야 하는지를 판단하고 연결의 강도를 추정해 

데이터 간의 연관성을 측정한다. 소셜 네트워크 서비스에서 관계 맺기나 추천 

서비스에서 많이 이용된다.

Data Reduction

많은 데이터를 중요 정보를 보유한 작은 데이터 세트로 축소하여 통찰력을 찾는 

방법을 의미한다.

Causal Modeling

어떤 사건이나 행위가 다른 행위에 영향을 미치는지 파악하기 위한 방법으로 

예를 들어 예측 모델링을 이용해 고객에게 타겟 광고를 하고 Causal Modeling을 통해 타겟 고객층이 실제로 더 높은 비율로 구매했는지를 관찰한다.

참고 : 비즈니스를 위한 데이터 과학



3. 데이터 분석을 위한 절차

비행기가 날기 위해서는 목적지와 항로, 그리고 항로까지 비행할 추진력을 얻기 위한 연료가 필요하다. 마찬가지로 데이터를 분석할 때는 분석 목적과 도착점을 설정하고 그 도착점을 향하기에 충분한 환경인지, 구체적인 비즈니스 문제가 있는지, 데이터 처리 기반이 존재하는지를 확인하는 것이 중요하다. 또한 비행기를 운행하기 위해 경험 많은 파일럿과 승무원이 필요하듯이 데이터 분석에 필요한 역량과 리더십 및 커뮤니케이션 능력을 갖춘 유기적인 데이터 분석 조직이 반드시 필요하다.


데이터 분석을 진행하는 단계는 해결해야 할 문제와 환경에 따라 세부적인 절차는 상이할 수 있으나 일반적으로 이해하기 쉽고 여러 산업 영역에 적용 가능한 CRISP-DM (Cross Industry Standard Process for Data Mining) 을 예로 들 수 있다. 


 

< 그림 : CRISP 데이터 마이닝 프로세스 >



데이터 분석 프로세스의 첫 단계이자 가장 중요한 단계는 업무 이해 즉, 해결할 문제를 이해하는 것이다. 많은 경우 데이터 분석을 통해 해결해야 할 비즈니스 문제가 명확하게 정의되지 않을 수 있으므로 기획과 가설 구상력을 갖추고 데이터 분석의 과제와 목적 및 우선순위를 결정한다. 업무 이해 단계에서는 업무 및 기업 환경에 대한 이해를 바탕으로 한가지 관점에 집착하지 않고 다양한 관점에서 가설을 구축하고 분석할 수 있는 창의적인 분석 역량이 요구된다


비즈니스 문제를 해결하는 것이 비행의 목적지라면 데이터는 비행기가 날기 위한 연료에 해당된다. 문제 해결을 위해 최적화된 데이터가 준비된 경우는 거의 없으므로 데이터를 이해하고 준비하는 과정은 때론 매우 지루하다. 업무 이해 단계에 수립된 가설에 필요한 데이터 레이아웃을 정의하고, 이를 확보하기 위하여 각 시스템의 데이터를 추출&가공하고 가공 결과를 검증하는 일은 데이터 분석가 업무의 상당 부분을 차지하기도 한다. 종종 데이터를 준비하는 단계에서 완벽한 대량의 데이터가 아니면 분석이 불가능하거나 분석 결과를 신뢰할 수 없는 것으로 오해하는 경우가 있는데 무작위 추출을 감당할 수 있는 표본과 데이터의 결손을 보완하거나 또는 허용할 수 있는 알고리즘을 도입할 수 있다면 분석이 가능하므로 지나치게 소극적인 선택을 할 필요는 없다


처리된 데이터는 가설을 바탕으로 모델을 구축하고 여러 분석 도구와 기술을 이용하여 가설 검증을 반복한다. 이 단계에서 주의할 점은 데이터 분석 결과 자체만으로는 비즈니스 문제 해결에 적용할 해결책으로 연결하기 부족하다는 점이다. 데이터 분석 결과에 유의미하게 영향을 주는 요소는 사실 매우 복잡 다양하므로 업무 현장의 경험과 직관을 통해 더욱 정확도 높은 가설과 모델로 정교화하는 과정이 반드시 필요하다. 우리가 마주하고 있는 데이터는 0,1로 이루어진 숫자가 아니라 숫자의 배후에 있는 사람들의 행동이며 데이터 분석 결과는 빙산의 일각일 위험성이 반드시 존재한다. 따라서 가설과 업무 현장의 경험과 직관을 융합하여 모델을 보완하는 과정이 특히 중요한 의미를 지닐 수 밖에 없다 이렇게 수립된 가설과 모델은 업무 현장에서 실천과 검증을 반복하며 시행착오를 통해 업무의 시점에서 최적화 고도화된다.



4. 데이터 분석을 통한 문제 해결의 열쇠는 결국 사람

“ 이 사건은 살인 사건이고 범인은 남자입니다. 그는 키가 6피트가 넘는 활기 왕성한 사람으로 큰 키에 비해 발은 작고 구두코가 네모난 조잡한 구두를 신었으며 인도산 트리키노플리 시가를 피웠죠. 이곳에는 피살자와 함께 사륜마차를 타고 왔는데, 그 마차를 끈 말은 세발은 헌 편자를, 오른쪽 앞발은 새 편자를 박았네요. 살인자는 얼굴이 붉고 오른쪽 손톱이 유난히 긴 남자입니다. 이런 것은 몇 가지 특징에 지나지 않으나 수사에 도움이 될 것입니다. “ (셜록 홈즈 - 주황색 연구)


데이터 분석을 진행하다 보면 마치 위의 예시와 같이 셜록 홈즈와 같은 천재에 의해 기업이 지닌 문제를 일사 분란하게 해결되는 영웅담을 기대하는 경우가 종종 존재한다. 그러나 데이터 분석은 의사 결정의 최적화를 돕는 도구일 뿐이며 잘못된 데이터 분석은 커다란 문제를 일으킬 수도 있다.  ‘데이터는 거짓말을 하지 않는다’라는 말도 있지만 데이터로 모든 것을 설명할 수는 없으며 사람은 데이터가 올바르다고 해서 반드시 움직이지는 않는다는 한계도 분명히 존재한다. 데이터 분석에 있어 사람의 창조성이나 직관이 중요하게 여겨지는 이유도 이 때문이며 훌륭한 데이터 분석 모델을 경영 성과로 이끌어 내는 것도 결국 현장에 있는 사람이다. 그러므로 데이터 분석을 단순한 IT 기술에 의한 수리 모델의 구현이 아닌 사람에 의한 사람을 위한 작업임을 이해할 때 데이터 분석의 진정한 가치가 비즈니스 영역에서 효력을 발휘할 것으로 기대된다.