Lakehouse educacional sobre inequidade no ENEM — Databricks Free Edition + Power BI.
O EduLake BR é um projeto de engenharia de dados fim a fim cujo objetivo é tornar visível, com dados públicos e método reprodutível, a parcela da nota do ENEM explicada pelo contexto (escola, rede, município) e não pelo mérito individual.
O projeto é explicitamente descritivo e exploratório — não faz inferência causal. Os números expostos no Power BI mostram correlações e padrões agregados, e todos os dashboards exibem um selo "DESCRITIVO" e uma nota metodológica no tooltip "?". Limites de inferência estão documentados em docs/adr/006-limites-inferencia-causal-v1.md (Phase 4).
As fontes são 100% públicas: microdados do INEP (ENEM e Censo Escolar), Base dos Dados (IDEB) e IBGE/SIDRA (PIB municipal). Nenhuma API privada, nenhum dado pessoal identificável (LGPD respeitada por design — silver.enem.participante_anon não carrega NU_INSCRICAO nem NU_NOME).
A janela temporal cobre 4 anos de ENEM (2020-2023) cruzados com Censo Escolar 2023, IDEB 2023 e PIB municipal 2022. A escolha de manter 2020 (ano de suspensão) na série foi deliberada — ver ADR-004 para a flag cohort_pandemia que isola períodos comparáveis.
A infraestrutura roda inteiramente no Databricks Free Edition (custo zero), com catálogo único edulake e três schemas (Bronze, Silver, Gold) na arquitetura medallion. Não há cartão de crédito, não há trial de 14 dias, não há pegadinha — só o tier gratuito e suas restrições, documentadas em ADR-002.
Fontes públicas (INEP, IBGE, Base dos Dados)
│
▼
┌──────────────────────────────────────┐
│ Bronze (raw, COPY INTO, Delta) │ ← data/raw/ + abfss
├──────────────────────────────────────┤
│ Silver (limpo, DLT, anonimizado) │ ← participante_anon
├──────────────────────────────────────┤
│ Gold (star schema, SCD2) │ ← fato + dim
└──────────────────────────────────────┘
│
▼
Power BI Desktop (DirectQuery, 4 dashboards)
- Bronze — dados crus ingeridos via
COPY INTO(ver ADR-001). Sem transformações, sem schema evolution automático. 4 fontes materializadas. - Silver — camada limpa com Delta Live Tables (DLT Classic) e expectations. Tabela-mãe é
silver.enem.participante_anon(~8 GB para 4 anos comprimidos em Delta), anonimizada e com covariáveis socioeconômicas preservadas. - Gold — modelo dimensional em star schema com SCD Type 2 em
gold.dim.escola(surrogate keysk_escola,effective_from/to,is_current). Fato principal:gold.fato.nota_escola(escola × ano × área × métricas). - Power BI Desktop — 4 dashboards (mapa coroplético, scatter escola, small multiples por UF, gap bruto público-privado) conectados via DirectQuery ao SQL Warehouse do Free Edition.
A escolha de manter o participante anonimizado em Silver (e não agregar tudo direto em Gold) está justificada em ADR-003.
-
Clone o repo:
git clone https://github.com/DRoqueProgrammer/edulake-br.git cd edulake-br -
Provisione o Databricks Free Edition seguindo
databricks/setup/README.mdedocs/setup/databricks-secrets.md. O Free Edition é gratuito e dispensa cartão de crédito — basta login emhttps://community.cloud.databricks.com. -
Instale o CLI Databricks e autentique:
pip install databricks-cli databricks configure --token
Cole o host (
https://community.cloud.databricks.com) e o PAT gerado no passo 2. -
Aplique o setup SQL (criar catalog
edulake+ 3 schemasbronze/silver/gold): abra o SQL Editor no Databricks, cole o conteúdo dedatabricks/setup/01_catalog_and_schemas.sqle clique Run. Valide comSHOW SCHEMAS IN edulake;. -
Rode o pipeline: após a Phase 4 estar concluída, o job full Bronze→Silver→Gold é disparado com:
databricks jobs run-now --job-id <id>
Em Phase 1 (esta fase) o pipeline ainda não existe — este passo só passa a funcionar a partir da Phase 4.
- INEP Microdados ENEM —
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem· 2020-2023 - INEP Censo Escolar —
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar· 2023 - INEP IDEB via Base dos Dados —
https://basedosdados.org/dataset/br-inep-ideb· 2023 - IBGE PIB municipal —
https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9088-produto-interno-bruto-dos-municipios.html· 2022
MIT — veja LICENSE. © 2026 Davi Roque.