비투엔 기술기고

[기고] 빅데이터와 차세대 데이터 웨어하우스 상편

알 수 없는 사용자 2017. 2. 24. 15:30




▶ 빅데이터와 차세대 데이터 웨어하우스(상) - 비즈니스 환경 변화와 DW의 적응 몸부림 

▶ 빅데이터와 차세대 데이터 웨어하우스 (하) - 하둡 기반의 DW 참조 아키텍처와 활용 사례 





 빅데이터가 DW를 대체한다? 


최근에 있었던 빅데이터와 데이터 웨어하우스와 관련된 역사를 잠깐 살펴 보자. 데이터 웨어하우스의 아버지라고 불리는 빌 인먼(Bill Inmon) 박사는 “데이터 웨어하우스는 주제 중심적이고, 통합적이고, 시계열적이고, 비휘발적인 데이터 집합으로 의사결정 프로세스를 지원하는 것”이라고 정의했다.

빅데이터가 데이터 웨어하우스를 대체할 수 있다는 의견이 나오자 인먼 박사는 “빅데이터와 데이터 웨어하우스는 전혀 다른 개념이다. 빅데이터는 기술적인 용어이고 데이터 웨어하우스는 아키텍처 용어이므로 빅데이터 때문에 데이터 웨어하우스가 없어질 것이라고 말하는 사람은 데이터 웨어하우스에 대해 전혀 모르는 사람”이라고 말했다.



“CLOUDERA-BIG DATA
Turbocharge your data warehouse” / Cloudera



빅데이터 솔루션을 공급하는 대표적인 업체 가운데 한 곳인 클라우데라가 ‘Turbocharge your data warehouse’라는 슬로건을 내민 적이 있다. 이에 대해 인먼 박사는 자신의 블로그를 통해 ‘이건 말도 안되는 얘기다. 이건 데이터 웨어하우스를 모르고 단지 기술만 팔기 위한 상술이다. 누가 포르쉐의 출력을 높이기 위해 코끼리를 사려하겠느냐!’며 강하게 클라우데라를 비판했다.

반면 인먼과 오랜 라이벌 사이인 랄프 킴벌(Ralph Kimball) 박사는 “하둡 환경이야말로 데이터 웨어하우스와 더불어 더 많은 데이터, 더 다양한 데이터를 통해 잠재적인 분석을 제공할 수 있는 아키텍처의 혁명적 이점”이라고 주장하며, 하둡 데이터 웨어하우스와 관련해 활발한 활동을 펼치고 있다.

빅데이터와 데이터 웨어하우스를 놓고 두 거장이 서로 다른 관점을 취하고 있다. 물론 빅데이터와 데이터 웨어하우스를 동일한 관점에서 설명할 수는 없다. 하지만 빅데이터가 데이터 웨어하우스 영역에서도 화두로 등장한 것은, 예의주시하지 않을 수 없다. 그럼 전통적인 데이터 웨어하우스의 아키텍처를 잠깐 살펴보자.




<그림 1> 전통적인 데이터 웨어하우스 아키텍처



전통적인 데이터 웨어하우스 아키텍처는 <그림 1>처럼 데이터 소스, 데이터 스토리지, OLAP 엔진, 프론트엔드 도구 등 네 가지로 구분할 수 있다. 오퍼레이션 데이터라든가 기타 소스를 통해 변경된 데이터 또는 복제된 데이터를 축적하고, 그 데이터가 ODS(Operational Data Store)를 통해 데이터 웨어하우스에 저장된다.


마찬가지로 ETL 등의 도구로 데이터를 추출하거나 변형해 데이터 웨어하우스에 저장한다. 더불어 주기적으로 갱신된다. 이렇듯 데이터 웨어하우스에 저장되는 데이터는 주제 중심적인 접근을 위해 다양한 데이터 마트를 만들게 된다. 데이터 마트를 만드는 과정에서 메타데이터를 통해 분석 기준이라든가 품질 측정 기준 등을 맞추기 위한 노력이 필요하다.

이런 전체 프로세스를 통합하고 모니터링하기 위한 모니터링 연구까지 필요하다. 데이터 웨어하우스와 데이터마트에서 저장된 데이터는 OLAP 서버나 서비스를 통해 분석(analysis), 쿼리, 리포팅, 데이터 마이닝 등을 통해 최종 사용자에게 제공/활용된다.

이런 전통적인 데이터 웨어하우스 아키텍처는 국내 일반적인 대형 데이터 웨어하우스 아키텍처와는 조금 다른 모습이다. 국내 데이터 웨어하우스 아키텍처에 대해 잠깐 살펴 보자. 국내 다수의 대형 데이터 웨어하우스 아키텍처는 전사적인 데이터 허브로서의 역할을 수행하기 위해 노력하고 있다.





<그림 2> 국내 데이터 웨어하우스 아키텍처



역할 수행을 위해 ODS를 변경분 추출 모델로 구성하고 EDW 영역을 Legacy Data Model과 유사하게 정규화한 데이터 모델로서 관리하고 있다. 데이터 웨어하우스와 데이터 마트 영역은 반정규화한 데이터 모델로 구성해 EDW에서 SQL 로직을 통해 데이터를 추출/저장/관리한다. 따라서 정규화한 모델인 ODS로의 데이터 추출을 위해 CDC와 같은 데이터 복제 솔루션들이 활용되고 있다. ODS와 EDW는 정규화된 데이터 모델로서 PK, INDEX 등이 관리되고 있다.

사용자 층을 살펴보면 일반 사용자는 데이터 웨어하우스와 데이터 마트에서 만들어진 데이터를 OLAP이나 웹 서비스를 통해 정형화한 데이터 분석을 하거나 리포팅을 한다. 파워 유저는 어떤 필요한 요구 사항이나 특정 데이터에 따라서 ODS에서부터 데이터 마트에 이르는 전 데이터 영역에 걸쳐서 애드훅 쿼리나 OLAP 도구로 심도 있게 분석하기도 한다.

이제 데이터의 저장 구조적인 측면을 살펴보자.
ODS는 레거시 시스템에서 발생한 변경문 데이터를 CDC(changed data capture)와 같은 데이터 통합 툴을 통해 추출/저장한다. 따라서 변경문 데이터를 관리해야 하므로 저장 공간의 부담이 따른다. 이에 따라 최근 데이터만 보유하고, 나머지 과거 데이터는 ILM등을 통해 Cutting한다. 이렇게 추출된 변경분 데이터는 컨덴스 머지나 인티그레이션을 통해 EDW에 Insesrt/Update/Delete 형태로 반영된다.

마찬가지로 데이터 웨어하우스나 데이터 마트 역시 시계열 데이터를 보관함에 따른 저장 공간 부담 때문에 과거 데이터의 일부분을 ILM 등을 통해 Cutting된다. 이렇게 커팅된 데이터들은 어떤 형태 또는 어떤 저장 매체에 보관하느냐에 따라서 온라인에서 과거 데이터 조회 가능 여부가 결정되곤 한다.




 IT 이노베이션과 제3의 플랫폼 


최근의 많은 변화 가운데 데이터 측면에서의 변화는 가장 많았다. 불과 몇 년 전까지만 하더라도 기업의 플랫폼은 수만 명의 사용자, 수만 개의 서비스를 통해 데이터가 발생되고 이를 처리할 수 있었다. 하지만 최근에 스마트 디바이스와 IOT와 같은 이슈는 기업의 데이터 플랫폼에 큰 변화를 가져왔다. 이제 기업의 플랫폼은 수십 억 사용자와 수백만 개 서비스에서 인터랙션되는 데이터를 처리해야 한다. 이를 IDC에서는 IT 이노베이션의 시기라고 부르고 제3의 플랫폼(Third Platform) 시대라고 정의하기도 한다. 이 환경의 중심에 있는 것이 바로 모바일 디바이스와 앱이고, 소셜 비즈니스, 클라우드 서비스와 같은 비즈니스 환경의 변화가 이를 촉진하고 있다.






<그림 3> 변화하는 비즈니스 환경



빅데이터는 비즈니스 과정 중에 발생한 엄청난 데이터를 원활하게 분석/활용, 이를 비즈니스에 활용하면서 경쟁력을 끌어 올릴 수 있게 됐다.




 기업에서 활용되는 데이터는 5% 미만 


하지만 일반적인 기업의 현실은 그렇지 못하다. HP의 한 보고서를 따르면, 최근 5년간 기업 내 데이터의 증가는 약 40%에 달했다. 그렇지만 기업 내 DW에 발생하는 데이터의 증가는 약 10% 미만이라고 한다. 마찬가지로 포레스터 리서치의 조사를 따르면, 기업에서 활용되거나 확인돼서 활용되는 데이터는 전체의 약 5% 미만이라고 한다. 다시 말해서 95% 이상의 데이터들이 활용되지 못하거나 확인되지 못한 채 버려질 데이터라는 것이다.




<그림 4> 기업 가용 데이터 비율



2014년에 개봉된 ‘루시’와 ‘리미트리스’라는 두 영화가 있다. 두 영화는 모두 인간의 뇌 활용에 관한 것이다. 일반적으로 사람이 평생 사용할 수 있는 뇌 사용량은 뇌의 15% 미만이라고 한다. 만약 인간이 100% 정도로 뇌를 사용한다면 과연 어떤 일이 벌어질 것인가? 이러한 의문점에서 이 영화는 출발한다. 100% 정도로 활용했을 때, 초능력에 근접한 능력을 발휘해 불가능에 가까운 일을 해낸다는 것이 이 영화의 줄거리다.




 왜 데이터 활용률이 낮을까? 


마찬가지로 기업의 데이터 활용성을 지금의 5%에서 10% 또는 15%로 끌어 올린다면 기업 경쟁력 역시 엄청나게 올라갈 수 있지 않을까? 그럼에도 왜 이렇게 데이터가 활용되지 못하는 것일까? 그것은 전통적인 데이터 웨어하우스 아키텍처가 갖고 있는 구조적인 한계 때문이라 할 수 있다. 기업에 DW가 구축된 후, 시간이 지남에 따라서 유입되는 데이터의 용량은 기하급수적으로 늘어난다. 사용자의 분석 요구 사항 또한 시간에 따라 변화하고 더 많은 요구사항이 나타난다. 그로 인해 우리가 분석할 필요가 있는 데이터 양도 엄청나게 늘어난다.





<그림 5> 기존 DW의 가장 큰 문제는 고가의 증설비용




 증가에 따라 늘어나는 유지/보수 비용 


데이터의 증가량에 비해 DW 시스템의 성능은 하향 곡선을 그린다. 데이터 저장공간 역시 급격하게 늘어남에 따라 유지/보수 비용도 기하급수적으로 늘어난다. 최근 한국IDC에서 기업의 DW 운용실태를 조사한 적이 있다. 기업의 DW 운용 문제점에 대한 것이었다. 데이터의 급격한 증가에 따른 고가의 시스템 증설 비용, 기존에 담지 못했던 원천 데이터 수용 요구가 가장 큰 어려움이라고 응답했다. 이와 마찬가지로 IT 관리자들은 많은 유지/보수 비용이 기존 DW의 가장 큰 문제점이라고 인식하고 있고, 앞으로 분석하려는 정형 데이터와 비정형 데이터에 대한 도전을 심각하게 받아 들이고 있다.



<그림 6> 한계 극복을 위한 인프라 차원의 노력



물론 DW 측면에서도 기존 한계를 극복하기 위한 많은 노력이 있었다. 서버 측면을 살펴 보면, DW 어플라이언스가 등장하면서 처리 성능에서 엄청난 발전을 불러왔다. 관리 효율 측면에서도 엄청난 이점을 가져다 주었다.




 기존 DW 기술의 한계 


하지만 DW 어플라이언스가 수용할 수 있는 범위를 넘어설 때마다 엄청난 증설 비용은 또 하나의 부담으로 작용하기 시작했다. 마찬가지로 스토리지 측면에서도 저장공간 증설 비용을 최적화하기 위한 노력으로 스토리지 가상화라든가 ILM(Information Lifecycle Management) 등이 등장했다. 성능 저하 방지를 위한 스토리지 티어링(계층화)과 같은 기술도 선보였다. 하지만 아직까지는 원본 데이터 전체를 수용할 수 있는 데는 한계가 있다. 분석 범위의 제한을 받을 수밖에 없다는 말이다. <다음 회에 계속>


출처 : 한국데이터진흥원 데이터 전문가 지식포털 DBguide.net (원문글 바로가기)