Dotz Data Labs

Introdução

Sumário

Para poder inovar e se manter em um mercado em constante mudança e evolução, Dotz passou por um processo de transformação digital e teve a ajuda de alguns consultores neste percurso.

Entre as iniciativas para se aproximar de um modelo digital, surgiu a implementação de um Data Lake, com o requisito de ser serverless e cloud-native, auxiliando no processo de tomada de decisão e encurtando o time-to-market durante o lançamento de novos produtos.

Problemática

A Dotz é uma das maiores empresas no campo de programas de fidelidade no Brasil, e enfrentaria um grande número de problemas com desconexão de dados dificultando a análise do comportamento de seus usuários. Como eles receberam dados de inúmeros supermercados e lojas, é difícil agrupar os produtos, já que o nome é diferente dependendo da fonte. Para ajudar nesta análise, eles decidiram construir um Data Lake.

Solução

Implementação Técnica

Construímos e implantamos uma arquitetura gerenciada da Big Data usando a Plataforma Cloud do Google (GCP) para suportar esta estratégia e permitir uma visão de 360 graus dos clientes (usuários com pontos a.k.a. Dotz) e parceiros que oferecem o programa de fidelidade.

O design foi focado em serviços gerênciados pela nuvem e serverless oferecida pelo Google, servindo as principais competências de um Data Lake como o armazenamento escalável usando o Google Cloud Storage, e o Google BigQuery. Com parte do processo rodando containerizado em Kubernetes, responsável pela limpeza de dados e gerenciar o ETL.

Transmitimos dados com o Apache Beam rodando sob o Google DataFlow, processamento em massa paralelo com Apache Spark jobs executados no Google DataProc, análise exploratória com o Google DataLab, Machine Learning Analysis com o Google ML e visualização de dados no Google Data Studio.

Os dados são transportados por meio de um modelo data-driven, onde os dados foram planejados para streaming, including o ETL (que funciona em um micro-batch, para permitir a exploração em near-real-time). Estes dados passam pelo pipeline de dados utilizando o serviço de mensageria do Google Pub/Sub, em que cada mensagem é serializada utilizando o formato Avro, reduzindo a carga e permitindo que o transporte seja econômico, rápido e confiável.

Impacto e resultados

Tudo isso permitiu à Dotz ter uma melhor estrutura em sua plataforma analítica, previamente gerenciada em uma grande instância do MS SQL Server, sendo deslocada para um Data Lake com camadas que permitem a categorização, governança, qualidade e segurança dos dados.

Suporte a processos analíticos de dados dos usuários, exploração ágil e monetização de seus conhecimentos sobre o comportamento dos clientes.

Matheus Cunha
Matheus Cunha
Engenheiro de Sistemas e Mágico

Apenas um amante de tecnologia empoderando empresas com computação “high-tech” para ajudar na inovação (:

comments powered by Disqus