Eli Rodrigues | Senior Data Engineer | Lakehouse | Databricks | Multi-cloud (Azure & AWS)

Eli
Rodrigues

Senior Data Engineer · Machine Learning · PySpark · Lakehouse

Engenheiro de Dados Sênior com 15+ anos de experiência construindo plataformas modernas e pipelines distribuídos em larga escala.

Especialista em Azure Databricks, PySpark e arquitetura Lakehouse, atuando em ingestão, transformação e preparação para analytics e machine learning.

Experiência em ambientes críticos e regulatórios (BACEN), com foco em governança, rastreabilidade e confiabilidade.

Atuação hands-on com foco em arquitetura, confiabilidade e consumo analítico.

15+

Anos de experiência

Cloud Platforms

TB+

Dados processados

Da ingestão ao insight · Lakehouse · Multi-cloud (Azure & AWS)

⚙️

Processamento Distribuído

PySpark Apache Spark Delta Lake Batch & Streaming Auto Loader Streaming Tables AWS Glue (Spark) Kinesis (Streaming)

☁️

Cloud & Lakehouse

Azure DatabricksADLS Gen2AWS/GCP Unity Catalog AWS (Glue, Kinesis, Redshift, S3) BigQuery / Dataproc

🔁

Orquestração

AirflowADFDatabricks Workflows AWS Step Functions AWS Glue Workflows MWAA (Airflow AWS)

🧠

Machine Learning

Python (Pandas/NumPy)Scikit-learnNLPVisão Computacional

🏛️

Governança, Qualidade & Regulatório

Unity CatalogData LineageRBACDelta LakeBACEN Auditoria Conformidade

🔌

Integração de dados

APIs Streaming Arquivos Sistemas legados Lakeflow Connect Data Ingestion AWS Kinesis AWS S3

Principais entregas

Entregas de alto impacto

📦

Pipelines distribuídos

Processamento de grandes volumes de dados com PySpark e arquitetura escalável.

🏗️

Lakehouse em produção

Implementação Bronze → Silver → Gold com Delta Lake e governança Unity Catalog.

🤖

Dados para modelos ML

Preparação e organização de datasets para treinamento, NLP e visão computacional.

🔁

Automação & orquestração

Airflow, Azure Data Factory, Databricks Workflows para pipelines confiáveis.

⚡

Integração de fontes

APIs, streaming, arquivos e sistemas legados em um só ecossistema.

💰

Otimização performance/custos

Melhorias contínuas em cloud (Azure/AWS/GCP) e eficiência de processamento.

Experiência com dados em escala

NOV 2022 — 2025

Senior Data Engineer

Semantix · Projeto Bradesco Seguros (Remoto)

Construção e evolução de plataforma de dados Lakehouse com Azure Databricks. Responsável por pipelines críticos e governança.

Pipelines PySpark para ingestão e transformação de dados
Arquitetura Bronze/Silver/Gold com Delta Lake
Preparação de dados para consumo analítico e suporte a modelos de ML
Orquestração com Azure Data Factory + Databricks Workflows
Integração com APIs, arquivos e sistemas corporativos, governança Unity Catalog

✦ Projeto de destaque — pipeline áudio → texto Pipeline de processamento de dados não estruturados (áudio → texto) estruturado para análises e NLP, com integração ao CRM Oracle para tomada de decisão.

OUT 2021 — NOV 2022

Data Engineer

DataSide · Projetos diversos (Google Cloud)

Pipelines distribuídos (batch e streaming)
Preparação de dados para dashboards e análises
Integração Dataproc, BigQuery e Cloud Storage
Estruturação de datasets analíticos

MAI 2019 — OUT 2021

Data Engineer

DataSide · Projeto Santander (AWS)

Pipelines ETL com AWS Glue
Processamento real-time com Kinesis
Modelagem e armazenamento Redshift / Snowflake
Integração entre sistemas via APIs

OUT 2018 — MAI 2019

Machine Learning Engineer / Data Engineer

InCor — Instituto do Coração (USP) · São Paulo

Modelos de machine learning para análise de imagens de raio-x
Identificação e classificação de padrões cardíacos
Preparação e tratamento de dados para modelagem
Pipelines para treinamento e avaliação, apoio ao diagnóstico médico

Construído em produção. ML e dados.

01 · SEMANTIX

Pipeline Áudio → Texto + NLP

Pipeline end-to-end de dados não estruturados: conversão de áudio (gravações) para texto, diarização, classificação NLP e integração com CRM Oracle. Orquestração em Azure Databricks, processamento em lote e governança Unity Catalog.

PySparkAzure AINLPDelta LakeCRM Oracle

02 · INCOR / USP

Análise de imagens médicas (Raio-X)

Desenvolvimento de solução de visão computacional para identificação de padrões cardíacos em radiografias. Classificação e destaque de áreas de atenção, auxiliando médicos na priorização de diagnósticos. Pipeline de treinamento e inferência.

PythonScikit-learnVisão ComputacionalClassificação

03 · ECOSSISTEMA MULTICLOUD

Plataforma Lakehouse para Analytics & ML

Construção de arquitetura Bronze/Silver/Gold em Azure e AWS com PySpark, Delta Lake e Unity Catalog. Preparação de datasets para times de Data Science e dashboards estratégicos.

LakehousePySparkADFDatabricks

Lakehouse corporativo · Databricks · PySpark · Delta Lake

Arquitetura Lakehouse corporativa ponta a ponta com governança operacional, quality framework, replay handling, semantic layer analítica e observabilidade de pipelines em Databricks.

01 · PROJETO TÉCNICO AUTORAL

Databricks Lakehouse Case

Arquitetura Lakehouse corporativa ponta a ponta utilizando Databricks, PySpark e Delta Lake com orquestração serverless, quality framework operacional, semantic layer analítica, replay handling, observabilidade de pipelines e governança operacional baseada em DAG.

✦ Destaques técnicosArquitetura Medalhão Bronze / Silver / Gold
Ingestion Log operacional com auditoria de carga
Quality Log centralizado para troubleshooting
Replay handling e prevenção de duplicidade
Enforcement de granularidade (grain validation)
Surrogate keys determinísticas
Semantic Layer analítica
Views executivas para BI
Tratamento de dados órfãos
Pipeline observável e rastreável
Evidências operacionais documentadas
Orquestração ponta a ponta com Databricks Jobs
DAG serverless com dependência entre camadas
Data Quality Validation automatizado
Pipeline observável com execution evidence
Framework operacional de troubleshooting
Serverless pipeline orchestration
Controle operacional via ingestion_log
Quality framework centralizado
Pipeline execution monitoring
Evidências documentadas de execução Databricks

✦ Desafios resolvidosCorreção de replay/deduplicação em cargas incrementais
Tratamento de status inconsistentes
Normalização de chaves dimensionais
Identificação de registros órfãos
Garantia de grain único na fato
Rastreabilidade completa de falhas
Troubleshooting operacional com evidências documentadas

✦ Orquestração & OperaçãoPipeline Bronze → Silver → Gold orquestrado
Databricks Jobs com DAG orientado a dependências
Execução serverless ponta a ponta
Data Quality Validation integrado ao pipeline
Observabilidade operacional da execução
Logs centralizados de ingestão e qualidade
Evidências operacionais documentadas
Execução rastreável com troubleshooting operacional

Databricks PySpark Delta Lake Lakehouse Data Governance Semantic Layer Quality Framework Observability Replay Handling Troubleshooting Data Quality Auditing Databricks Jobs DAG Orchestration Serverless Data Observability Pipeline Monitoring Operational Governance Quality Validation Data Lineage

↗ Ver repositório 📄 Documentação técnica 🧾 Evidências técnicas 🧩 Pipeline Orchestration

✦ ORQUESTRAÇÃO SERVERLESS

Pipeline enterprise com DAG operacional no Databricks

Execução ponta a ponta das camadas Bronze → Silver → Gold com Data Quality Validation, troubleshooting operacional e observabilidade centralizada via Databricks Jobs.

Projeto desenvolvido com foco em práticas de engenharia de dados corporativa, incluindo orquestração serverless, observabilidade operacional, governança de pipelines, data quality validation e troubleshooting operacional em arquitetura Lakehouse.

Ferramentas, clouds e certificações

Data Engineering · Core

PythonPySparkApache SparkDelta LakeSQLScalaHadoop/HiveKafkaAirflowDocker/K8s

Cloud · Azure · AWS · GCP

Azure Databricks ADLS Gen2 Microsoft Fabric Azure Data Factory Unity Catalog AWS (fundamentos) AWS Glue Kinesis Redshift BigQuery Dataproc Snowflake

Machine Learning & Data Science

Pandas/NumPy Scikit-learn Preparação de dados NLP Visão computacional Classificação/Detecção

Banco de dados

OraclePostgreSQLMySQLSQL ServerMongoDBSnowflake

Certificações & especializações

Data Engineering — Udacity Especialização Data Science Machine Learning Big Data Databricks Academy – Data Ingestion Databricks Academy – DevOps Essentials Microsoft Fabric – Programação e Análise de Dados (2026) AWS Cloud Practitioner (CLF-C01) – Curso preparatório

EliRodrigues