Roadmap geral 2026Q2 — soberania-digital #10

Open
opened 2026-04-30 04:04:17 -03:00 by navigator · 0 comments
Owner

Roadmap soberania-digital

Indexa as issues abertas. Atualize as caixas conforme progresso.

Críticos (bloqueiam confiabilidade ou produção)

  • #2 — refator load_all_contracts para streaming
  • #7 — systemd units + scheduling
  • #8 — senha hardcoded

Alta prioridade (qualidade dos dados / objetivo)

  • #3 — scraper PNCP usa valorGlobal bugado
  • #6 — religar pipeline LLM (Ollama nunca foi instalado)
  • #1 — login gov.br (OIDC, fases 0-3)

Média prioridade (refinamento)

  • #4 — outliers de TCE/transparencia/siconfi não tratados
  • #5 — refinar regex TI (FP ~20%)
  • #9 — mojibake em fornecedor

Já feito (2026-04-28/29)

  • ✓ Quarentena de 445 outliers (valor_outliers_quarantine)
  • ✓ Heurística PNCP valorParcela × numeroParcelas aplicada (63 fixes + 278 quarantines)
  • ✓ Filtro lexical TI materializado em contratos_ti_ids (306.661 IDs)
  • dashboard.json regenerado com filtro TI: R$ 193,5 bi (vs R$ 1,7 T sem filtro)

Princípios

  • Escopo: TI proprietária / lock-in / direcionamento. Descartar saúde, rodovia, obras genéricas, etc. Toda agregação faz JOIN com contratos_ti_ids.
  • Auditoria: valor_outliers_quarantine mantém histórico — não apagar, só remarcar.
  • Operação cuidadosa: LXC tem 8 GiB. Nunca rodar coisas que carregam todo contratos na RAM.
# Roadmap soberania-digital Indexa as issues abertas. Atualize as caixas conforme progresso. ## Críticos (bloqueiam confiabilidade ou produção) - [ ] #2 — refator `load_all_contracts` para streaming - [ ] #7 — systemd units + scheduling - [ ] #8 — senha hardcoded ## Alta prioridade (qualidade dos dados / objetivo) - [ ] #3 — scraper PNCP usa `valorGlobal` bugado - [ ] #6 — religar pipeline LLM (Ollama nunca foi instalado) - [ ] #1 — login gov.br (OIDC, fases 0-3) ## Média prioridade (refinamento) - [ ] #4 — outliers de TCE/transparencia/siconfi não tratados - [ ] #5 — refinar regex TI (FP ~20%) - [ ] #9 — mojibake em `fornecedor` ## Já feito (2026-04-28/29) - ✓ Quarentena de 445 outliers (`valor_outliers_quarantine`) - ✓ Heurística PNCP `valorParcela × numeroParcelas` aplicada (63 fixes + 278 quarantines) - ✓ Filtro lexical TI materializado em `contratos_ti_ids` (306.661 IDs) - ✓ `dashboard.json` regenerado com filtro TI: R$ 193,5 bi (vs R$ 1,7 T sem filtro) ## Princípios - **Escopo:** TI proprietária / lock-in / direcionamento. Descartar saúde, rodovia, obras genéricas, etc. Toda agregação faz JOIN com `contratos_ti_ids`. - **Auditoria:** `valor_outliers_quarantine` mantém histórico — não apagar, só remarcar. - **Operação cuidadosa:** LXC tem 8 GiB. Nunca rodar coisas que carregam todo `contratos` na RAM.
Sign in to join this conversation.
No description provided.