Disponível para projetos e oportunidades estratégicas

Eli
Rodrigues

Senior Data Engineer · Machine Learning · PySpark · Lakehouse

Engenheiro de Dados Sênior com 15+ anos de experiência construindo plataformas modernas e pipelines distribuídos em larga escala.

Especialista em Azure Databricks, PySpark e arquitetura Lakehouse, atuando em ingestão, transformação e preparação para analytics e machine learning.

Experiência em ambientes críticos e regulatórios (BACEN), com foco em governança, rastreabilidade e confiabilidade.

Atuação hands-on com foco em arquitetura, confiabilidade e consumo analítico.

15+
Anos de experiência
3
Cloud Platforms
TB+
Dados processados

Da ingestão ao insight · Lakehouse · Multi-cloud (Azure & AWS)

⚙️

Processamento Distribuído

PySpark Apache Spark Delta Lake Batch & Streaming Auto Loader Streaming Tables AWS Glue (Spark) Kinesis (Streaming)
☁️

Cloud & Lakehouse

Azure DatabricksADLS Gen2AWS/GCP Unity Catalog AWS (Glue, Kinesis, Redshift, S3) BigQuery / Dataproc
🔁

Orquestração

AirflowADFDatabricks Workflows AWS Step Functions AWS Glue Workflows MWAA (Airflow AWS)
🧠

Machine Learning

Python (Pandas/NumPy)Scikit-learnNLPVisão Computacional
🏛️

Governança, Qualidade & Regulatório

Unity CatalogData LineageRBACDelta LakeBACEN Auditoria Conformidade
🔌

Integração de dados

APIs Streaming Arquivos Sistemas legados Lakeflow Connect Data Ingestion AWS Kinesis AWS S3

Entregas de alto impacto

📦

Pipelines distribuídos

Processamento de grandes volumes de dados com PySpark e arquitetura escalável.

🏗️

Lakehouse em produção

Implementação Bronze → Silver → Gold com Delta Lake e governança Unity Catalog.

🤖

Dados para modelos ML

Preparação e organização de datasets para treinamento, NLP e visão computacional.

🔁

Automação & orquestração

Airflow, Azure Data Factory, Databricks Workflows para pipelines confiáveis.

Integração de fontes

APIs, streaming, arquivos e sistemas legados em um só ecossistema.

💰

Otimização performance/custos

Melhorias contínuas em cloud (Azure/AWS/GCP) e eficiência de processamento.

Experiência com dados em escala

NOV 2022 — 2025
Senior Data Engineer
Semantix · Projeto Bradesco Seguros (Remoto)

Construção e evolução de plataforma de dados Lakehouse com Azure Databricks. Responsável por pipelines críticos e governança.

  • Pipelines PySpark para ingestão e transformação de dados
  • Arquitetura Bronze/Silver/Gold com Delta Lake
  • Preparação de dados para consumo analítico e suporte a modelos de ML
  • Orquestração com Azure Data Factory + Databricks Workflows
  • Integração com APIs, arquivos e sistemas corporativos, governança Unity Catalog
✦ Projeto de destaque — pipeline áudio → texto Pipeline de processamento de dados não estruturados (áudio → texto) estruturado para análises e NLP, com integração ao CRM Oracle para tomada de decisão.
OUT 2021 — NOV 2022
Data Engineer
DataSide · Projetos diversos (Google Cloud)
  • Pipelines distribuídos (batch e streaming)
  • Preparação de dados para dashboards e análises
  • Integração Dataproc, BigQuery e Cloud Storage
  • Estruturação de datasets analíticos
MAI 2019 — OUT 2021
Data Engineer
DataSide · Projeto Santander (AWS)
  • Pipelines ETL com AWS Glue
  • Processamento real-time com Kinesis
  • Modelagem e armazenamento Redshift / Snowflake
  • Integração entre sistemas via APIs
OUT 2018 — MAI 2019
Machine Learning Engineer / Data Engineer
InCor — Instituto do Coração (USP) · São Paulo
  • Modelos de machine learning para análise de imagens de raio-x
  • Identificação e classificação de padrões cardíacos
  • Preparação e tratamento de dados para modelagem
  • Pipelines para treinamento e avaliação, apoio ao diagnóstico médico

Construído em produção. ML e dados.

01 · SEMANTIX
Pipeline Áudio → Texto + NLP
Pipeline end-to-end de dados não estruturados: conversão de áudio (gravações) para texto, diarização, classificação NLP e integração com CRM Oracle. Orquestração em Azure Databricks, processamento em lote e governança Unity Catalog.
PySparkAzure AINLPDelta LakeCRM Oracle
02 · INCOR / USP
Análise de imagens médicas (Raio-X)
Desenvolvimento de solução de visão computacional para identificação de padrões cardíacos em radiografias. Classificação e destaque de áreas de atenção, auxiliando médicos na priorização de diagnósticos. Pipeline de treinamento e inferência.
PythonScikit-learnVisão ComputacionalClassificação
03 · ECOSSISTEMA MULTICLOUD
Plataforma Lakehouse para Analytics & ML
Construção de arquitetura Bronze/Silver/Gold em Azure e AWS com PySpark, Delta Lake e Unity Catalog. Preparação de datasets para times de Data Science e dashboards estratégicos.
LakehousePySparkADFDatabricks

Lakehouse corporativo · Databricks · PySpark · Delta Lake

Arquitetura Lakehouse corporativa ponta a ponta com governança operacional, quality framework, replay handling, semantic layer analítica e observabilidade de pipelines em Databricks.

01 · PROJETO TÉCNICO AUTORAL
Databricks Lakehouse Case
Arquitetura Lakehouse corporativa ponta a ponta utilizando Databricks, PySpark e Delta Lake com orquestração serverless, quality framework operacional, semantic layer analítica, replay handling, observabilidade de pipelines e governança operacional baseada em DAG.
✦ Destaques técnicos
Arquitetura Medalhão Bronze / Silver / Gold
Ingestion Log operacional com auditoria de carga
Quality Log centralizado para troubleshooting
Replay handling e prevenção de duplicidade
Enforcement de granularidade (grain validation)
Surrogate keys determinísticas
Semantic Layer analítica
Views executivas para BI
Tratamento de dados órfãos
Pipeline observável e rastreável
Evidências operacionais documentadas
Orquestração ponta a ponta com Databricks Jobs
DAG serverless com dependência entre camadas
Data Quality Validation automatizado
Pipeline observável com execution evidence
Framework operacional de troubleshooting
Serverless pipeline orchestration
Controle operacional via ingestion_log
Quality framework centralizado
Pipeline execution monitoring
Evidências documentadas de execução Databricks
✦ Desafios resolvidos
Correção de replay/deduplicação em cargas incrementais
Tratamento de status inconsistentes
Normalização de chaves dimensionais
Identificação de registros órfãos
Garantia de grain único na fato
Rastreabilidade completa de falhas
Troubleshooting operacional com evidências documentadas
✦ Orquestração & Operação
Pipeline Bronze → Silver → Gold orquestrado
Databricks Jobs com DAG orientado a dependências
Execução serverless ponta a ponta
Data Quality Validation integrado ao pipeline
Observabilidade operacional da execução
Logs centralizados de ingestão e qualidade
Evidências operacionais documentadas
Execução rastreável com troubleshooting operacional
Databricks PySpark Delta Lake Lakehouse Data Governance Semantic Layer Quality Framework Observability Replay Handling Troubleshooting Data Quality Auditing Databricks Jobs DAG Orchestration Serverless Data Observability Pipeline Monitoring Operational Governance Quality Validation Data Lineage
✦ ORQUESTRAÇÃO SERVERLESS

Pipeline enterprise com DAG operacional no Databricks

Execução ponta a ponta das camadas Bronze → Silver → Gold com Data Quality Validation, troubleshooting operacional e observabilidade centralizada via Databricks Jobs.

Databricks Jobs Orchestration

Projeto desenvolvido com foco em práticas de engenharia de dados corporativa, incluindo orquestração serverless, observabilidade operacional, governança de pipelines, data quality validation e troubleshooting operacional em arquitetura Lakehouse.

Ferramentas, clouds e certificações

Data Engineering · Core
PythonPySparkApache SparkDelta LakeSQLScalaHadoop/HiveKafkaAirflowDocker/K8s
Cloud · Azure · AWS · GCP
Azure Databricks ADLS Gen2 Microsoft Fabric Azure Data Factory Unity Catalog AWS (fundamentos) AWS Glue Kinesis Redshift BigQuery Dataproc Snowflake
Machine Learning & Data Science
Pandas/NumPy Scikit-learn Preparação de dados NLP Visão computacional Classificação/Detecção
Banco de dados
OraclePostgreSQLMySQLSQL ServerMongoDBSnowflake
Certificações & especializações
Data Engineering — Udacity Especialização Data Science Machine Learning Big Data Databricks Academy – Data Ingestion Databricks Academy – DevOps Essentials Microsoft Fabric – Programação e Análise de Dados (2026) AWS Cloud Practitioner (CLF-C01) – Curso preparatório

Vamos construir uma plataforma de dados escalável?

Disponível para projetos de engenharia de dados, arquitetura Lakehouse, pipelines de ML e governança em Azure/AWS/GCP. Entre em contato para uma conversa estratégica.


📍 Itupeva, SP — Remoto