Religar pipeline LLM (Ollama nunca foi instalado em produção) #6

Open
opened 2026-04-30 04:04:16 -03:00 by navigator · 0 comments
Owner

Contexto

Arquitetura declarada: Postgres + Ollama local + NetworkX. Mas which ollama no servidor retorna nada. Os 26.450 enrichments existentes em llm_enrichment foram feitos em outro lugar (laptop?) e despejados no DB. A tabela tem 41% de erros (10.915 errors em 26.450) → modelo escolhido provavelmente não estava bem alinhado com o schema esperado.

Decisões

  • Local (Ollama) vs Remoto (Anthropic/OpenAI/Gemini)?
    • Local: zero custo recorrente, mas precisa de GPU (LXC de 8 GiB sem GPU, hoje só CPU = lento)
    • Remoto: ~R$ 0,001-0,01 por contrato; pra 4,5M faltantes = R$ 4.500-45.000 só uma vez
    • Sugestão: começar com Anthropic Haiku 4.5 na primeira passada; depois trocar pra Ollama local em GPU dedicada
  • Schema de output canônico (já em llm_enrichment): e_ti, categoria_llm, fornecedor_normalizado, produto, lock_in, lock_in_motivo, alternativa_livre, confianca, processed_at, raw_response
  • Resolver os 41% erros: priorizar reprocessamento dos 10.915

Tarefas

  • Decidir provider (Ollama local / API remota / híbrido)
  • Ajustar prompt + JSON schema com exemplos few-shot
  • Refatorar scripts/llm_enrich.py para batching + retries
  • Reprocessar erros (WHERE error IS NOT NULL)
  • Processar somente IDs em contratos_ti_ids (306K rows — bem mais barato que 4,77M)
  • Cron/timer no systemd para rodar continuamente

Observação operacional

Combinado com o filtro TI, o universo a processar caiu 15× (4,77M → 306K). Custo total de inferência fica viável.

## Contexto Arquitetura declarada: Postgres + Ollama local + NetworkX. Mas `which ollama` no servidor retorna nada. Os 26.450 enrichments existentes em `llm_enrichment` foram feitos em outro lugar (laptop?) e despejados no DB. A tabela tem 41% de erros (10.915 errors em 26.450) → modelo escolhido provavelmente não estava bem alinhado com o schema esperado. ## Decisões - [ ] **Local (Ollama) vs Remoto (Anthropic/OpenAI/Gemini)?** - Local: zero custo recorrente, mas precisa de GPU (LXC de 8 GiB sem GPU, hoje só CPU = lento) - Remoto: ~R$ 0,001-0,01 por contrato; pra 4,5M faltantes = R$ 4.500-45.000 só uma vez - Sugestão: começar com Anthropic Haiku 4.5 na primeira passada; depois trocar pra Ollama local em GPU dedicada - [ ] **Schema de output canônico** (já em `llm_enrichment`): `e_ti, categoria_llm, fornecedor_normalizado, produto, lock_in, lock_in_motivo, alternativa_livre, confianca, processed_at, raw_response` - [ ] **Resolver os 41% erros**: priorizar reprocessamento dos 10.915 ## Tarefas - [ ] Decidir provider (Ollama local / API remota / híbrido) - [ ] Ajustar prompt + JSON schema com exemplos few-shot - [ ] Refatorar `scripts/llm_enrich.py` para batching + retries - [ ] Reprocessar erros (`WHERE error IS NOT NULL`) - [ ] Processar somente IDs em `contratos_ti_ids` (306K rows — bem mais barato que 4,77M) - [ ] Cron/timer no systemd para rodar continuamente ## Observação operacional Combinado com o filtro TI, o universo a processar caiu 15× (4,77M → 306K). Custo total de inferência fica viável.
Sign in to join this conversation.
No description provided.