| 전략적인 비즈니스 의사결정 도구 역할…데이터 품질 확보·거버넌스 유지 필수

 


[데이터넷] 경제·사회적으로 위기 이후 정착된 상태를 뉴노멀(New Normal)이라 한다. 1차 세계대전, 2007~2008년 금융위기, 2011년 9·11 테러, 2008~2012년 글로벌 경기 침체 여파, 코로나19 팬데믹 및 기타 사건이 있었다. 코로나 사태가 어느 정도 해소된 이후 새로운 비즈니스 기준이 무엇인지를 말하고자 할 때는 ‘넥스트 노멀(Next Normal)’이라 한다. 포스트 코로나 시대에는 궁극적으로 현재의 사회·경제적 패러다임이 근본적으로 변화함으로써 새로운 사회·경제 질서가 중심이 된 ‘넥스트 노멀’이 도래할 것으로 보인다.

 

한종식 비투엔 운영Coe팀 위원



2020년 7월 IDC 조사결과에 따르면 한국 기업의 55%가 이미 침체를 딛고 성장 및 넥스트 노멀로 나아가고 있으며, 이에 맞춰 미래의 엔터프라이즈로 거듭나기 위한 투자를 진행하고 있는 것으로 나타났다. 공공부문에서도 2020년부터 2022년까지 디지털 뉴딜 사업으로 경기를 부양하기 위한 계획과 실행을 하고 있다.

IDC는 경제/비즈니스 회복 단계를 ①코로나 위기(비즈니스 연속성) → ②경기둔화(비용 절감) → ③경기침체(비즈니스 복원력) → ④성장으로의 복귀(집중화된 투자) → ⑤넥스트 노멀(미래 엔터프라이즈)로 설명한다. 2021년 8월 현재 델타 변이, 집단 면역 등으로 고통, 공포, 불안이 진행형이지만 언젠가 코로나 위기는 극복될 것이다.

기업들은 코로나 위기를 극복하고 도약의 발판으로 디지털 기술을 이용하는 미래 엔터프라이즈를 구축하려는 움직임을 가속화하고 있다. 최우선적으로 투자가 기대되는 디지털 기술은 ABC(인공지능, 빅데이터, 클라우드)로 여겨진다. 그중 AI·빅데이터는 정보계와 밀접하게 관련되며 접근방법에 따라 디지털 전환 성공여부가 예상된다. 위드(WITH)/포스트(POST) 코로나 시대에 성공적인 전환을 위해서 관련 기술 요소의 이해와 시스템 역할 및 구성 정의가 필요하다.

 


기업 자산 ‘데이터’

데이터가 기업의 자산이 됐다. 마이크로소프트는 이를 데이터 자산(Data Estate)이라고 지칭 한다. 물려받은 자산이 가장 많이 축적된 시스템은 정보계 시스템이다. 데이터 자산이 축적된 정보계를 보유한 기업은 데이터 활용에 있어 다음을 충분히 고려해야 한다.

1. 빅데이터·AI와 정보계는 대체가 아닌 상호 협력해야 한다.
2. 빅데이터·AI 프로젝트는 빅뱅 진행 방식보다 애자일 방식 진행이 효과적이다.
3. 심층 기계학습은 전체 업무가 아닌 예측이 필요한 일부 업무에 적용할 수 있다.

정의하는 주체에 따라 용어 차이는 있지만 데이터 흐름에 따라서 정보계와 빅데이터를 다음과 같이 설명한다.

[정보계] 기간계/채널/단위시스템 등 사내, 정형 위주 → 정보계(데이터웨어하우스(DW) → 마트(Mart) → OLAP/BI)
[빅데이터] 사외 데이터 포함, 비정형 포함 → 데이터레이크(Data lake) → 비주얼라이즈(Visualize)
 

 

[데이터 웨어하우스(DW)와 데이터 레이크(Data Lake) 비교(출처: AWS)]



빅데이터는 오래전부터 이야기된 키워드다. 빅데이터가 AI를 만나면서 더욱 중요성과 가능성을 높였다. AI(기계학습)로 통계 모델을 만들기 위해서는 훈련 데이터가 필요한데 데이터 규모가 커지면 정확도가 높기 때문에 빅데이터가 필요해졌고, 그래서 빅데이터가 주목받고 있다.

AI가 다시 주목받은 역사적인 대표 이벤트는 체스게임(1997년), 제퍼디 퀴즈쇼(2011년), 이세돌 바둑 대결(2016년), 이미지넷(ImageNet)의 비저닝(Visioning, 개·고양이 이미지 판단) 성공률 등이 있다.

하지만 지난 7월 IBM 왓슨 사업부 폐쇄, 알파고 해체 소식이 있었고, 많은 국내 기업이 DA(Data Analytic, 데이터 분석) 조직 존폐를 고민하고 있는 것으로 알려지면서 데이터 이용이 빅데이터·AI 활용에만 용도가 있다는 오해와 만능 솔루션이라는 과장된 기대로 모처럼의 기회를 놓치게 되지나 않을까 우려스럽다.

정보계는 비즈니스의 전략적인 의사결정 도구로써 데이터 허브, 통계/집계, 원인분석, 시뮬레이션, 실행을 위한 목록 추출 등으로 활용한다. 빅데이터·AI를 강결합하면 데이터가 ‘학습 후 예측’이라는 용도가 제한된다. 정보계와 빅데이터·AI가 협업해 비즈니스 기회 발굴 가능성을 높이고 지속 투자해야만 구글, 페이스북, 넷플릭스 같은 기업의 인공지능 성과를 기대할 수 있다.

 


AI, 데이터 활용성 높여

인공지능은 역사적으로 흥망성쇠를 거듭하며 현재에 이르렀다. 그 과정에서 구글, 페이스북은 일반인에게 알려지지 않은 인공지능 관련 가능성으로 관심을 받았다. 그 관심은 인공지능에 새로운 데이터 타입 등장과 연산이다.

새로운 데이터 타입은 텐서(Tensor)다. 다차원 행렬 연산은 넘파이(Numpy) 패키지에서 다차원 배열(ndarray)을 사용하면 가능하다. 하지만 CPU를 사용해 순차 처리하기 때문에 속도가 느리고, 만족한 결과를 얻기 위해서는 많은 비용이 발생한다. 새로운 타입인 텐서를 사용하면 다차원 행렬 연산에 GPU를 사용할 수 있다. GPU를 사용하면 대용량 데이터 처리가 작은 비용으로 신속하고 정확하게 병렬 처리를 할 수 있으며, 이로써 유튜브의 실시간 번역, 높은 정확도의 페이스북 이미지 분류가 가능하다.

이는 구글 텐서플로(Tensorflow), 페이스북 파이토치(Pytorch)가 인공지능 영역에서 리더인 핵심적인 이유로, 전통적인 통계 패키지가 심층 기계학습-인공지능에서 관심 받지 못한 이유는 텐서 연산을 할 수 없기 때문으로 여겨진다.

인공지능과 관계없이 전통적인 정보계의 데이터 분석 가능성을 설명하고자 비즈니스 시나리오를 소개한다. 익스피디아는 웹사이트 ‘익스피디아닷컴’을 운영하는 온라인 여행사다. 2012년 100명의 예약 고객 중 58명이 콜센터에 전화를 했었지만, 이후 예약 고객이 웹사이트를 통해서 여행 일정을 조회할 수 있게 되면서 1억 달러의 비용을 아낄 수 있었다. 여기까지는 사실(non-fiction)이다.

데이터(정보)로 일하는 방법을 설명하기 위해 전통적인 정보계라면 “어떻게 익스피디아 문제를 해결했을까?”를 설명(fiction)한다.



 데이터 허브

비즈니스 분석에 필요한 데이터는 데이터베이스에 축적하고 축적한 데이터 설명은 메타시스템으로 카탈로그화되어 내용을 확인할 수 있다. 축적 시 데이터는 추출·변환·적재(ETL)하고 클렌징해 품질을 높였을 뿐만 아니라 사용에 용이하게 구성됐다. 데이터 허브는 계속 설명하는 통계/집계, 원인분석, 시뮬레이션, 목록 추출 등에 필요한 데이터를 적시에 제공한다.

예를 들어 고객 주제영역에는 고객 분석에 필요한 고객 속성, 고객 관계자, 고객 연락처, 고객 접촉 이력, 고객 예약 실적, 고객 거래 실적, 고객 경험 등 기업 내부에서 발생한 직접 또는 간접적으로 관련된 사실(Fact)이 과거부터 현재까지 데이터웨어하우스(DW)에 축적돼 있다. 빈번히 분석되는 정보는 마트로 구성돼 올랩(OLAP) 또는 BI 툴을 이용해 다차원 분석이나 데이터 추출이 가능하다.


■ 통계/집계

익스피디아의 예약 고객의 절반 이상은 콜센터에 전화를 한다. 이것을 정량화하기 위해 예약 고객 수를 계수(count)하고 예약 고객 중 1회 이상 콜센터에 전화한 고객 수를 계수한다. 그래서 비중(58%)을 산출할 수 있다.

영업이 잘 되면 예약 고객 수가 증가하고 그에 비례해 콜 수도 증가한다. 콜센터는 매출 증가에 따라 증가하는 콜 수와 통화시간만큼 상담원의 충원 계획을 수립한다. 이를 위해 콜 수와 통화시간의 변화를 계산하고, 상담원 1인당 평균통화시간을 계산해 인력 충원 계획을 수립한다. 충원 계획 시 매출 증가 추이 및 예상 변화 요소로 향후 몇 년을 고려한다.

성장이 멈춘 기업에서는 통화시간, 고객 대기시간을 단축해 원가 절감과 고객 만족도 향상을 위한 생산성 향상 계획을 수립할 것이다. 상담원 통화시간, 고객 대기시간 등을 계산하고 평균적인 생산성을 산출해 단축 목표를 선정하고 생산성 향상에 전력할 수 있다.

주기(일/주/월/분기/년)적으로 진행 현황을 조직(부서/개인)별로 계획 대비 실적으로 집계하고 관련자들에게 공유한다. 제공된 정보로 상품별, 지역별로 검색할 수 있다. 정보계에서 활용되는 통계나 집계 작업이다. 이와 같은 데이터 콘텐츠로 예산수립, 실행계획, 계획 대비 실적 모니터링이 가능하다.

하지만 이는 단순 대응이다. 분석을 하면 좀 더 지혜로운 전략적인 의사결정을 할 수 있다. 그러면 단순 모니터링이 아닌 사전 예방이 가능해진다.



■ 원인분석, 드릴 다운(Drill down)

58%의 예약 고객이 콜센터에 왜 전화를 하는지 알고 싶다면 통화 내용을 확인하고 통화 원인을 분류한다. 높은 비중을 차지하는 분류를 확인하고 그에 따른 개선점을 찾는다. 이 같은 원인분석으로 개선 대상 우선순위를 정하거나 집중 개선이 필요한 통화 유형을 확인할 수 있다.

통화 유형이 없다면 콜센터 운영시스템에서 통화 유형을 수집해야 한다. 익스피디아에는 비중이 높은 통화 유형(Top list)이 여행일정표 문의였다.

원인을 확인하면 개선 대책이 변한다. 막연한 계획에서 구체적인 것으로, 단편적인 대응에서 발생 원인별 해결로, 당면한 문제를 대응하기 위한 단기적인 것에서 근본 원인을 제거하기 위한 장기적인 것 등으로 대책이 변화한다.

익스피디아는 여행 예약 시 여행일정표를 고객이 등록한 메일 주소로 발송하고 있었다. 전화로 다시 확인하는 이유는 ▲메일주소가 잘못 입력됐거나 ▲메일 발송 문구에 문제가 있어 스팸으로 처리됐거나 ▲수신된 메일이 삭제됐거나 ▲수신일자가 많이 경과해 메일 검색에 어려움이 발생했을 시 예약 고객은 콜센터로 전화했다.

확인 통화 과정에서 대기시간이 증가해 고객 불만 증가 현상, 예약 취소 가능성 발생하며 상담원은 감정노동 강도가 높아졌다. 매출이 커지면 통화량 증가, 대기시간 증가, 고객 불만 증가, 노동 강도 증가로 직결됐다.

이를 해결하기 위해서 ▲웹페이지에서 예약 고객이 직접 여행일정표를 검색하도록 기능을 추가하고 ▲음성 안내 옵션을 변경하고(예: 여행일정표 확인은 3번) ▲메일 발송 방식을 변경하고(스팸 필터 회피) ▲메일 주소를 클렌징해 데이터 품질을 개선했다.

물론 콜센터 운영 효율화는 지속하면서 원인에 따른 대책을 수립한다. 그중에서 고객이 직접 검색하도록 웹사이트에 기능을 추가한 것은 메일이나 전화를 하는 문제 자체를 없도록 하는 가장 효과적인 계획이다.


■ 시뮬레이션 - 예측

정보계를 이용하면 비용이 발생하는 실행에 따른 경제적 효과를 사전에 예측할 수 있으며 경영진의 의사결정을 받고 예산 확보가 용이하다. 비용 산출은 콜센터 운영비용에서 상담 원인 별 비중에 따라 비용을 배분할 수 있다.

운영비용에는 콜센터 공간 임대료, 운영시스템/장비 구축비용, 직/간접 인건비 등 다양한 요소로 구성되며, 기업마다 상이한 회계 규칙 또는 운영 규칙이 있지만 산출은 가능하다.

익스피디아는 상담 1건당 약 5달러로 비용이 산출됐다. 1년간 일정표 문의가 2000만 건이 발생해 1억 달러가 고객 문의에 발생한 비용으로 계산됐다.

정성적인 기대를 제외하고 이와 같은 계산 방법으로 해결안별 통화 감소를 예상해 정량적인 비용 절감 기대 금액을 산출할 수 있다. 막연히 좋아진다는 계획안보다 정량적인 기대 효과를 제시해 의사결정과 예산확보에 필요한 기대 ROI 계산에 데이터를 활용할 수 있으며, 경제적 기대 가치를 제시하므로 신뢰성을 더해 경영진 의사결정을 얻을 수 있다.


■ 목록 추출

원인분석에 따른 문제해결 대책으로 실행계획을 수립할 수 있다. 대상 계약 또는 대상 고객 목록을 정보계(데이터 허브)에서 추출할 수 있으며, 추가적으로 개별 대책 비용을 산출해 전체 기대 효과를 계산할 수 있다. 각 구성 비중을 어떻게 배부할 것인가를 시나리오별로 산출하고 이를 합산해 예산 배정 최적 배부안을 도출할 수 있다.

익스피디아는 여행일정표 관련된 통화(2000만 통)가 오지 않게 됐고, 통화 고객 비중이 58%에서 15%로 감소했다.

전통적인 정보계 기능과 새로운 인공지능 기능을 조화롭게 활용해야 데이터 분석영역에서 디지털 전환을 성공할 수 있다. 기업 내부 데이터를 충분히 이해하지 못한 상태에서 외부 데이터를 비즈니스에 활용하는 것은 불가능하며 기업 내부 데이터 자산을 충분히 활용하기 위해서는 내부 데이터를 이해하고 품질을 높이는 과정이 필요하다.

이를 위해서 정보계가 필요하며, 만약 정보계가 없다면 구축해야 한다. 그런 이후에 외부 데이터, 비정형 데이터, 인공지능 활용이 가능하다.

빅데이터의 데이터 레이크는 정보계에서 축적하지 못한 비정형 기업 내부 데이터와 수요가 있는 기업 외부 데이터를 축적할 수 있으며, 새로운 분석 시나리오를 만들 수 있다. 새로운 분석 시나리오는 새로운 비즈니스 기회와 혁신적인 개선을 의미한다. 기업 데이터 자산인 정보계와 새로운 기회인 빅데이터는 정형·비정형 데이터 통합 및 내·외부 데이터를 통합할 수 있고 통합 분석 시너지를 기대할 수 있다.

 


데이터 품질 확보·거버넌스 필수

인공지능은 새로운 기능으로 특정 비즈니스 영역 솔루션으로 활용할 수 있다. 예를 들어 정보계가 수집·축적한 고객정보를 이용해 지금까지 여행 경험, 휴가 패턴, 외부에서 수집한 고객 취미 및 경제 상황으로 고객에게 개인화된 매력적인 여행 상품을 성공률이 가장 높은 시점에 추천할 수 있다.

추가적으로 데이터를 원활히 활용하기 위해서는 데이터 품질 확보가 필요하며, 폭발적으로 증가하는 데이터의 품질을 높은 수준으로 유지하고 사용자들이 활용할 수 있게 정보를 제공하기 위해서는 데이터 거버넌스가 필요하다. 원활한 데이터 활용은 제공 수집·제공 범위를 확대하는 것, 필요한 만큼 데이터를 상세히 제공하는 것, 제공 정보의 충분한 설명을 포함하는 것 등이 있다.

Posted by 비투엔

댓글을 달아 주세요