원시 데이터에서 데이터 스토리텔링으로 이어지는 분석 여정은 5개의 단계로 구분할 수 있습니다. 성공적인 데이터 스토리텔링을 위해 각 단계를 이해하고 잘 수행할 필요가 있습니다. 분석의 단계별 특징들을 레고블록으로 비유해서 설명해보려고 합니다.
1) 데이터 수집 : 분석 목적에 맞는 데이터를 수집
2) 데이터 전처리 : 분석에 활용할 수 있도록 데이터를 정리, 변형
3) 데이터 시각화 : 서비스의 현황을 누구나 더 쉽게 모니터링하고 이해할 수 있도록 데이터를 시각화
4) 데이터 분석 : 분석 목표에 맞춰 인사이트를 찾기위해 데이터를 조사
5) 데이터 스토리텔링 : 내러티브와 시각적 자료로 발견한 인사이트 설명
1) 데이터 수집
오늘날 대부분 조직에서는 데이터를 수집하고 있습니다. LEGO 조각과 마찬가지로 데이터도 다양한 모양과 형태로 이루어져 있으며 데이터의 조합으로 다양한 결과(레고 조립 결과)를 만들 수 있습니다. 다만 데이터나 LEGO 조각을 원시 형태로 남겨두면 저장 공간을 차지하는 것 외에는 다른 목적으로 사용되지 않습니다. 그것들이 적절한 형태로 조합될 때만 의미 있고 유용한 것으로 바뀝니다.
비즈니스는 다양한 데이터 소스로부터 매일 데이터를 쌓고 있습니다. 물리적 서버나 데이터 웨어하우스에 집계되는 이러한 데이터는 시간이 지남에 따라 저장공간을 더 넓혀 갈 것입니다. 우리가 해야 할 것은 쌓여가는 데이터에서 유의미한 결과들을 만들어나가는 고민 일것입니다.
2) 데이터 전처리
다양한 LEGO 조각을 무작위로 쌓아두는 것보다 색상, 모양, 크기 또는 기능별로 정리하는 것이 좋습니다. 이 과정에서 LEGO가 아닌 항목이나 부서진 LEGO 조각을 제거할 수 있습니다. 무엇을 만들려는 지에 따라 둘 이상의 LEGO 세트에서 LEGO 부품을 결합해야 할 수도 있습니다.
수집한 데이터를 사용하려면 먼저 유사한 정리, 결합 과정을 거쳐야 합니다. 데이터를 시각화하고, 분석하고, 데이터 스토리로 활용하기 위해 데이터를 사용할 수 있게 만드는 데 상당한 시간과 노력이 소요됩니다.
LEGO를 비슷한 색상 모양 크기로 분류하는 방식은 데이터 Mart를 그리는 것과 유사합니다. 데이터 Mart는 원시 데이터에서 분석 목적에 맞는 데이터들을 따로 분류해서 모아놓은 것으로 데이터 검색과 활용 속도를 높이는 분류 방식입니다. LEGO를 분류하면서 불량을 발견하는 것은 데이터의 전처리 과정에서 이상치, 누락데이터, 중복 데이터 등과 같은 데이터 문제점들을 발견하는 과정과 같습니다.
Garbage In, Gargabe Out 의 이야기처럼 깨끗하게 처리되지 않은 데이터를 가지고 분석을 하게 되면 오리려 분석이 더 어려워지고 적절한 인사이트 도출도 어렵습니다.
3) 데이터 시각화
이제 여러분은 분류된 LEGO 더미를 뒤져 무언가를 만들 수 있습니다. 하지만 색상이나 기능별로 벽돌을 쌓아두었다고 해도 새롭게 무언가를 만드는데는 시간이 오래 걸립니다. 같은 레고 블록을 쥐여주어도 모든 사람이 같은 결과를 만들어 내지는 않습니다.
따라서 LEGO는 해당 블록들로 만들 수 있는 예시 설명서를 제공하고 있습니다. LEGO 블록 내의 특정 크기, 모양, 기능, 색상별로 어떤 상황에 어떻게 활용하면 좋은지 체계적으로 정리되어 있습니다. 설명서를 통해 무엇을 작업해야 할지 결정하기가 더 쉽고 완성물을 만드는 동안 필요한 블록을 빠르게 찾아낼 수 있습니다.
마찬가지로, 데이터 전처리를 통해 시각적 차트와 그래프가 포함된 대시보드를 구성한다면 비즈니스의 현상을 더 쉽게 이해할 수 있습니다. 데이터 시각화를 사용하면 데이터를 보다 명확하게 확인하고 정보를 쉽게 탐색하여 데이터에 숨어있는 단서를 더 쉽게 발견할 수 있습니다.
이러한 시각화는 데이터가 친숙하지 않은 구성원들에게 특히나 효과적일 것입니다. 데이터를 다루거나 시각화를 할 수 없더라도 이렇게 시각화가 구성된 환경하에서 간단하게 도메인 지식을 시각적 정보와 결합하여 인사이트를 도출하기는 훨씬 쉽기 때문입니다. 이러한 환경을 데이터 드리븐 환경이라고 합니다.
4) 데이터 분석
데이터 분석 단계에서는 특정 비즈니스 질문에 대한 답을 찾기 위해 데이터 분석의 목적을 잘 정의해야 합니다.
LEGO로 무언가를 만들 때도 무엇을 만들 것인지에 대한 명확한 아이디어가 먼저 있어야 합니다. 자동차, 보트, 비행기를 만들고 싶다면 우선 해당 결과물을 만들 수 있는 데이터 인지 확인하고 하나씩 만들어 나가야 합니다. 자동차를 만들다가 보트를 만들면 이상한 결과물이 만들어질 수 있습니다. 한 번에 하나의 목적에 맞는 결과물에 집중해야 합니다.
대부분의 분석 작업의 결과물은 유의미한 인사이트가 발견되지 않을 수 있습니다. 마찬가지로 LEGO 조립 과정에서 원하지 않는 조립품을 폐기하거나 다른 방식으로 재구성하기는 경우는 흔합니다.
가지고 있는 모든 레고 블록을 활용해서 결과물을 만들지 않는 것처럼 데이터 일부만으로 인사이트를 만들 수 있습니다.
레고 블록 전체로 만들 수 있는 가장 큰 구조물이 있다 하더라도 대부분은 일부 블록으로 부분적인 결과들을 만들어 냅니다. 이처럼 대부분의 분석은 일부 데이터를 활용하여 인사이트를 발견하며 이는 비즈니스의 모든 것을 설명하지는 않습니다. 우리가 하는 분석과 인사이트는 LEGO 구조물의 하위 조립품과 유사합니다.(레고로 집을 만든다고 한다면 지붕 조립물과 같은 중간 결과물이 분석의 결과물과 유사합니다)
LEGO를 사용하는 친구 혹은 부모 등 누군가를 위해 만들수도 있습니다. 이처럼 데이터 분석을 우리의 사용 목적 외에도 관리자, 팀, 부서, 회사 등 다른 사람에게 이익을 주기 위해 그들의 사용 목적에 맞춰 분석을 수해하는 경우가 많습니다. 주요 이해관계자의 관심 사항이나 요구 사항을 더 많이 알수록 분석의 목표가 더욱 명확해지고 인사이트의 가치도 높아집니다.
5) 데이터 스토리텔링
LEGO 블록을 통해 최종 결과물을 조립하더라도 그 자체로서 의미가 있지 않습니다. 다양한 조립물로 아이들이 이야기를 만들며 가지고 놀때 조립물은 그제야 매력적인 결과물이 되는 것입니다. 하나의 조립물보다 여러 조립물들이 합쳐졌을 때 이야기는 더욱 풍성해지고 놀이는 더욱 재밌어집니다.
마찬가지로 일련의 데이터 분석과 인사이트도 이들을 하나로 묶는 포괄적인 이야기 전개가 없으면 불완전할 것입니다. 숫자에 관련된 맥락과 의미를 이야기해야 비로소 청중은 인사이트의 진짜 의미를 깨달을 것입니다.
데이터스토리텔링은 레고를 만드는(데이터 분석 과정의) 마지막 단계입니다. 데이터 스토리의 가치는 각 단계에 따라 달라집니다. 데이터 스토리를 효과적으로 전달하지 못하면 이전 작업이 모두 물거품이 될 수 있습니다. 반대로 각 단계가 잘 수행되지 않는다면 마지막 데이터스토리텔링 단계도 매력적인 이야기를 만들 수 없습니다.
LEGO 구축과 데이터 스토리텔링 모두 계획, 창의성, 세부 사항에 대한 다양한 해결 기술을 요구합니다.
데이터 분석 과정을 레고에 비유한 다양한 자료들이 있습니다(출처 참고) 모두 각자의 방식으로 과정들을 설명하고 있으며 이를 참고하여 지금의 분석 환경에 맞는 예시들과 내용을 수정해 새롭게 정리하였습니다. 혹시나 관련한 내용이 궁금하신 분들은 출처에 있는 링크를 참고해주세요 😄