Refinar filtro lexical TI (~20% FP residuais) #5
Labels
No labels
area/api
area/auth
area/dashboard
area/db
area/frontend
area/llm
area/scrapers
meta
priority/critical
priority/high
priority/low
priority/medium
type/bug
type/feature
type/infra
type/refactor
type/security
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
soberania-brasileira/digital#5
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Contexto
/tmp/build_ti_ids.py(executado 2026-04-29) marcou 306.661 contratos como TI via 9 dimensões regex. Sample manual mostrou ~75-80% de precisão; ~20% FP típicos:servico_tiregex\mUPS\Mou similarautoma[çc][ãa]ono.?breakSoluções
automa[çc][ãa]o— exigir contexto (automação industrial/comercial/predialé OK; "automotivo" não)no.?breakcom word boundary mais estritomonitorexige contexto (LCD/LED/4K/...) — já tentei, ainda vazaautomotivo, ar condicionado, bateria, higiene, alimentação, ambulatorial, odontológico, oncológico, hemodi*, transporte de cargas, motocicletallm_enrichment.e_ti) — features: TF-IDF dadescricao+ nome dofornecedorMétrica alvo
Precisão > 90%, recall > 80%