비투엔 기술기고

[데이터분석] B2EN 조현기의 데이터 분석 이야기~ 2편

알 수 없는 사용자 2014. 9. 5. 14:39



  이번은 Social Network 분석에 대해서 살펴보고자 합니다.   


★ 일상에서 데이터분석 소재 발굴

데이터분석은 생활 주변의 가까운 소재 또는 흥미 있는 주제를 사용하여 접근하는 것이 가장 효과적이고 재미가 있는 듯 합니다. 

직장인들이라면 한번은 보았음직한 "한국경제 김과장&이대리" 기사는 제목을 보기만 해도 직장인들의 삶과 애환을 한눈에 알 수 있고, 더군다나 내용도 혹 할 만큼 매우 재미있지요. 생각나는 김에 아래에 몇 개 제목을 옮겨와 봤습니다. 


  • 실수만회 최선의 방법은…솔직한 고백이 최선…빨리 말하고 도움 받아

  • 도보 출퇴근이 소원(29%)  애인이 회사 현관까지 척~(2%)

  • 본부장에게 보낸 `충성`메일이…앗! 사내 전체메일

  • 실수만회 최선의 방법은…솔직한 고백이 최선…빨리 말하고 도움 받아

  • 김 과장, 퇴근 후엔 커피숍 박 사장…이름 싹 바꾸고 아무도 모르게 쉿!

  • 한국전 있는 날이라도 탄력근무 안되나요



★ 조직도와 Social Network

대한민국의 직장인이라면 대부분 조직에 속해 있지요. 그리고 조직도는 해당 회사의 주요인물이 누구인지를 알 수 있는 중요한 자료입니다. 

간단해 보이지만 Social Network 를 살펴보기에 충분하지요. 회사조직도를 가지고 데이터놀이를 한번 펼쳐나가 보는것도 재미있겠다는 생각이 스쳐왔습니다. 

생각을 실행으로 옮겨보려니 자료 즉 데이터가 필요합니다. 경영지원실에 넌지시 물어봐 정리된 엑셀파일을 손쉽게 받을 수도 있겠지만, 실제 상황은 필요한 데이터가 준비되어 있지는 않을 테니 데이터수집과정을 생략하지 않는 셈 치고 그냥 직접 부딪혀 보기로 했습니다. 



★ 데이터 수집과 처리

바로 작업 착수했습니다. 회사 내부사이트의 조직도를 긁어서 엑셀로 붙였습니다. 그랬더니 글자가 틀어지고 원하지 않는 것 까지 몽땅 끌려 들어왔네요. 원했던 형태를 만들려면 수작업이 불가피해 보입니다. 

이왕 시작한 것 끝까지 해보기로 하였습니다. 여기서부터 데이터수집(Handmade Crawling)과 처리(Handmade Pre-processing)과정이라는 관점에서, 소위 빅데이터가 시작된다고도 할 수 있겠습니다. 이런데다 수동이라는 말은 어감이 딱 와닿지 않아서, 영어단어만큼은 많은 분들이 좋아하실 법한 호사스러운 "Handmade" 라는 단어를 채택해 보았습니다. 


빅데이터라는 신조어가 언론과 수많은 사람들의 입에 오르락 내리락 하였지만 실제 시작은 여러분의 팔을 걷어 붙이고, 정체도 명확하지 않고 오랜동안 묵은 먼지가 잔뜩 쌓여있는 엄청난 데이터 창고에서 먼지를 뒤집어써가면서 분석에 필요한 데이터를 찾아내고 불필요한 데이터를 청소하는 일일 것입니다.

 아직 이것을 대체해 줄 수 있는 인공지능적인 뭔가는 개발되어 있지 않나 봅니다. 혹시 아시는 분이 계시다면 빅데이터 기술 개발자 분들에게 꼭 알려주셔요. 아주 큰 감사의 화환을 보답으로 받을지도 모르니까요. 


그나마 데이터가 수집되어 있는 것만으로도 시작에 있어서 청신호가 켜져 있는 셈이라고 할 수 있습니다. 여기서 이 이야기를 더 풀었다가는 본론으로 못 돌아올지도 모르니 정신을 가다듬고 다시 원래 하던 작업으로 돌아가야겠습니다. 


 


여튼, 텍스트만 가져오도록 조치를 해 보았습니다. 물론 수작업이었습니다. 사람은 무엇을 하고자 한다면 당연히 이러이러한 과정을 거쳐나가야 되더라는 것을 읊어나가보자는 심산이니까요. 

조직도에 사람이름이 아닌 팀명이 중간중간 자리를 차지 하기 때문에 수작업으로 제했습니다. 대량의 데이터라면 뭔가 다른 처리가 필요하겠지요 손가락이 아플테고 단순작업에 눈이 모니터로 빨려 들어가는 사태가 발생할 수도 있으니 말입니다. 


다음은 엑셀에서 문자열자르기를 통해 조직원의 이름만 가져왔습니다. 다행히 저희회사는 이름이 네글자 또는 두글자인 분은 없네요. 감사합니다. 모두 3글자 입니다. 와우~ Perfect 하네요. 그렇지 않았다면 한두차례의 추가적인 번거로움을 피할 수 없었을 테니까요. 이로써 결과로 나온 것은 '조직도' 에 있던 인원들의 이름입니다. (데이터 처리 부분에 대한 애로점은, 비중이 큰 관계로 다음 기회에 별도로 정리를 해야 할 듯 합니다.)


그런데 제가 하고자 하는 것은 이름을 단순히 나열하는 것이 아니라 조직도에 담겨있는 의미인, 팀원과 직속팀장과의 직접적인 관계를 한눈에 보겠다는 것입니다. 그래서 각 사람의 직속팀장 이름을 추가해 주었습니다. 그리고 이를 R 에서 읽어들이는데 익숙한 csv 파일형태로 만들었습니다. 자 이렇게 되면 분석을 위한 데이터가 일단 준비되었다고 할 수 있겠습니다. 



★ 시각화와 분석

R 의 igraph 패키지를 사용하여 테스트 데이터를 일단 시험 삼아 돌려 봅니다. 아래와 같은 형태로 나옵니다. 



기본 테스트를 했으니 이제 저희가 만든 데이터를 그려보아야겠지요.

다음과 같은 그림이 그려졌습니다. 위와 다른 점이 있다면 열심히 만든 이름을 붙여 넣었습니다. 



그런데 위 그림을 보아서는 한눈에 파악이 안 됩니다. 개인적으로 한 눈에 원하던 것을 볼 수 있는 것이 데이터 분석에서는 매우 중요하다고 생각하고 있습니다. 물론 결과를 보고서 통찰(Insight)과 가치(Value)를 얻을 수 없거나 이미 예상한 내용과 다를 바가 없다면 분석가의 고민이 깊어지고, 눈가에 주름살이 늘어나겠지요. 


시각화(Data Visualization) 에 대한 고민이 더 필요해 보입니다. 이건 읽고 계신 여러분의 상상의 몫으로 남겨둘까 합니다. 저는 한가지 의미만 시각화라는 관점에서 더 추가해 보겠습니다.  조직도라는 틀 안에서 누가 가장 많은 팀원과 직접적으로 관계되어 있는지에 대한 것입니다. 이를 원의 크기로 표현해 주는 것입니다. 



★ 데이터분석의 활용과 상상력

위 그림에서 원의 크기를 보고 한 눈에 파악할 수 있는 것은, 해당사람과 직접적인 관계를 가지는 팀원의 수입니다. 

다시 한번 말씀드리자면 조직도에 표현되어 있는 정보, 여기서는 직접 관계된 팀원의 수라는 수치의 제약을 벗어나지는 못하고 있습니다. 하지만 여기서 수많은 아이디어 시도에 대한 만용을 부려볼 수 있습니다. 


어느 누구도 조직도라는 형식적인 틀만을 가지고서, 감히 조직을 안다고 말할 수 없을 것입니다. 창조물중에 가장 복잡해 보이는 존재인 사람(열 길 물 속은 알아도 한 길 사람 속은 모른다는 속담도 있지요)과 관련된 무언가를 분석하는 것도 어려운데, 그들이 모여있는 조직이라는 것을 진정하게 안다는 것은 정말 어려운 일일테니까요. 화성에서 온 남자 금성에서 온 여자처럼 동일한 '사람'인데도 성별이 다르다는 것만으로도, 어느 누구도 평생을 살면서 상대방을 100% 온전하게 이해했다, 알았다 하기는 쉽지 않아 보이니까요. 

그래서 저희는 어쩔 수 없이 여러종류의 다양한 데이터를 붙여 가면서 분석하고 시각화해가면서 드넓은 세상이 아닌, 나에게 의미있는 작은 것 하나를 분석하고 발견하는 것만으로도 통찰(Insight) 를 얻었다고 할 수 있을 것 같습니다. 


어떤 관점으로 조직을 분석해 보고 싶나요. 프로젝트화된 조직의 경우에는, 내부 조직도보다는 어느 프로젝트의 구성원으로 누구와 얼마나 오래 있었는지가 더 많은 의미를 지닐 수도 있습니다. 

조직의 특성에 따라서도 분석은 달라지지요. 더 나아가서는 누구와 가장 자주 밥을 먹고 회식을 하는지 그리고 연락(전화, 카톡, 페이스북 등)을 서로 얼마나 주고 받는지를 분석대상으로 삼는 것이 조직, Social Netwrok 를 더 잘 이해하는 것이라고 누군가는 생각할 수 있습니다. 


분석해서 무엇에 활용하겠다에 따라서 이 모든 상황은 달라질 것입니다. 데이터분석은 그래서 업무전문가이면서 상상력이 무궁무진하게 필요합니다. 그런 점에서 저도 어릴 때 읽었던 동화책을 꺼내서 다시 살펴봐야겠네요. 



★ 데이터분석의 활용

정리하자면 Social Network 분석은 사람간의 관계를 통해서 무언가를 알고 싶다는 것입니다. 기업은 이를 비즈니스에 활용하겠다는 것이고요. 활용이라는 관점에서 특정기업들은, 자신들이 정의하거나 중요하다고 생각하는 기준을 가지고, 고객들을 Clustering 하여 고객군을 나누고 고객군별로 다른 마케팅전략을 구사할 수 있을 것입니다. 아이디어를 가지고 구체화하는 기업이 경쟁력을 가지게 되겠지요. 


이미 특정 기업들은 내부적으로 꾸준한 시도를 하고 있다는 이야기를 듣게 되고는 합니다. 페이스북은 이런 Social Network 를 활용하여 "People you may know" 라는 기능을 구현해서 Networking 을 남발하게 만들기도 합니다. 이에 대해서는 사람마다 호불호(好不好)가 갈리는데 저는 '불호(不好)' 쪽이네요. 이것도 분석대상이 될 수 있겠지요.


해당 서비스를 사람들이 좋아하는지 않 좋아하는지, 그래서 기능을 아예 없애거나, 강도나 빈도를 조절하므로써 결국은 수익의 극대화를 꾀하는 방향을 취하는 것이 기업이 원하는 바 일테니까요. 분명한 건 시도도 못한다는 것은 기회 자체를 잃는 것을 의미하기 때문에 방향성은 그렇게 되어 갈 것이라고 조심스럽게 예측해 봅니다. 감사합니다.