[기고] "빅데이터 플랫폼 활용 장애물을 뛰어넘는 전략 수립 필요"
<이일호 비투엔 DX1본부 이사>
많은 기업들이 점점 다양해지는 데이터를 효과적으로 활용하기 위해 빅데이터 분석 플랫폼을 구축하고 있다. 기업이 보유하고 있는 데이터를 Data Lake라는 PooL 안에 담아두려는 인프라 확보를 시작으로, 다양한 형태의 데이터를 수집하고 고도화된 분석을 통한 양질의 인사이트를 의사 결정자에게 제공하기 위한 노력을 기울이고 있다.
하지만 여전히 수많은 기업/기관들은 구축해 놓은 데이터 플랫폼에 대해 회의적인 시각을 갖거나 빅데이터 분석 플랫폼을 운용하는 데 있어서 많은 어려움에 직면해 있는 것이 현실이다. 예를 들면, 구축해 놓은 데이터 플랫폼의 투자 수익성에 대한 의구심, 기 운용 중인 정보계/분석계 시스템과의 차별성, 빅데이터 자원 및 데이터 플랫폼에 대한 활용 증대 방안 등과 같은 여러 현실적인 고민들을 안고 있다. 이러한 고려사항들은 데이터 분석 플랫폼에 어떻게 적용할 수 있을지 고민이 필요하다.
<구축된 데이터 플랫폼의 투자 수익성을 확보하기 위한 방안>
최근 정보계 시스템은 폭발적인 데이터 저장공간을 고려한 인프라 장비 운용으로 인해 운영비용에 대한 고민이 커지고 있다. 이를 극복하기 위한 대안으로 대부분의 기업에서는 데이터 생명 주기 관리 및 데이터 압축 등 극복해 나갈 수 있는 여러 방안을 적용해 나가고 있다.
최근의 정보계 장비는 어플라이언스라는 고가의 장비들로 운용되고 있는 곳이 많아 비용 확보라는 현실적인 벽이 존재한다. 이러한 부분을 감안하여 현 운용 중인 데이터를 Hot/Cold 데이터로 저장 범위의 수평 분할을 한다면 시스템 여유 자원 확보 및 데이터 저장 비용, 시스템 확장 측면에서도 비용 절감을 기대할 수 있다. 즉 대용량, 장기보유 데이터(Cold) 분석은 하둡 데이터 플랫폼이 담당하게 하고, 최근의 데이터(Hot)에 대해서는 정보계 시스템을 통해 분석하게 하는 것이다.
<기 운용 중인 정보계/분석계 시스템과의 차별성 확보 방법>
보유한 정보계 시스템과의 차별성에 대한 부분은 현 빅데이터 플랫폼 관계자들은 공히 공감할 것이다. 정보계 분석 소스데이터의 경우 대부분이 레거시 시스템의 정형 데이터에 국한되기 마련이다. 반면 빅데이터 플랫폼의 경우 비정형, 반정형 형태에 대한 수용이 가능하며, 실시간 성격의 비정형 데이터에 대해서도 Kafka, Flink, Spark Streaming 등을 통해 실시간 데이터 수집 파이프라인 구성이 가능하다는 특성이 있다.
특히 대부분의 기업에서 업무 참조를 위해 검색/참조하는 비정형, 반정형 형태의 다양한 문서 및 이미지 데이터를 활용한 통합문서 검색 서비스도 가능해진다. 텍스트 변환 및 OCR 기술을 통해 텍스트 데이터 추출, 전처리, 수집 저장을 함으로써 데이터의 활용도를 확대할 수 있는 것이다.
<데이터 활용의 장애물, 2022 ITWorld 기사 참조>
<빅데이터 자원 및 데이터 플랫폼에 대한 활용 증대 방안>
이렇게 구축된 데이터 분석 플랫폼에서는 사용자와 분석가 모두에게 활용성 강화와 사용 편의성 제공을 위한 방안 역시 필요하다. 이를 위해 사용자와 분석가 모두에게 가장 중요한 것은 수집된 데이터의 분류체계와 출처(Lineage), 오너십/스튜어드십, 메타 데이터 및 정형/비정형 데이터에 대한 검색, 분석 플랫폼 자원 관리 등 데이터를 잘 찾고 활용하기 위해 제공되어야 할 기반 서비스일 것이다.
하지만 기존의 정형 데이터 관리를 위한 메타 데이터 관리 도구만으로는 이를 충분히 충족시키지 못하는 것이 사실이다. 또한 실제로 많은 기업들이 빅데이터 수집 플랫폼 구축에만 급급하여 실제 활용성을 높이기 위한 노력과 기반 환경 제공에는 적극적이지 못해, 기존 정보계 시스템에 비해 이용성이 떨어지는 현상에 직면하고 있는 것도 현실이기에 이러한 지원 서비스 구성이 절실하다. 데이터 분석을 위한 기반 환경 제공이 원활히 이뤄져야 비로소 분석가, 사용자의 Self Service 분석이 실현될 것이다.
<빅데이터 플랫폼 활용 예시(출처:비투엔)>
<빅데이터 환경의 데이터, 서비스에 대한 정보 보안 적용 방법>
구축된 빅데이터에 대해 사용자의 접근성을 높이면서 필수적으로 적용되어야 할 데이터 보안 적용 방법에 대한 방안도 필요하다. 대부분의 기존 레거시 및 정보계 시스템은 ITSM의 접근 권한 서비스 관리를 통해 데이터/서비스 분류에 따라 접근 허용이 관리되어 왔지만, 최근에는 이를 연계/확장하여 데이터 분류체계를 재 수립하고 하둡 환경 내에 제공하는 데이터 접근 활동에 대한 보안과 감사 기능 등 새로운 보안체계의 필요성이 높아지고 있다.
기업에서 많이 사용하는 Cloudera CDP(Cloudera Data Platform) 등의 빅데이터 플랫폼 솔루션의 경우 Atlas와 Ranger 서비스를 통해 하둡 내 보관되는 데이터 분류체계 관리 및 권한 적용 기능을 웹 UI와 API를 통해 관리할 수 있다. 하둡 내 수집/저장된 데이터에 대해 분석가를 포함한 사용자들이 보다 쉽게 데이터 접근 권한을 신청하고 보안이 필요한 데이터는 적절한 분류체계로 관리하며 데이터 마스킹 또는 접근 제어를 통해 보안성을 담보하는 것이 관건이다.
▶ 관련 기사 : 전자신문