Cache enrichment: entries lixo no suffix_form_to_id #26
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
Auditoria do
word_decomp_cache.pkl(docs/CACHE_ENRICHMENT_AUDIT.md, 2026-05-13) achou 5-20 entries lixo na tabelasuffix_form_to_idque vazaram da extração do Houaiss. Representam <0.5 % da tabela, mas pegam ids reais e contribuem com vetores de embedding desperdiçados. Não bloqueia experimentos atuais; deveria ser limpo quando a infra do schema v2 estiver mais quieta.Exemplos
Olhando as primeiras 30 entries do
cache.suffix_form_to_id:Esses não são sufixos. São fragmentos do texto da entrada Houaiss que foram parseados como
formde SUFFIX em algum momento da pipelinescripts/extract_houaiss_v2.py.Por que não é urgente
docs/MASHA_V3_DESIGN.md).fix(cache)em commit122f02a) já bloqueia uma porção do ruído na atribuição dessas entries lixo a surfaces reais.Onde mexer
Duas opções:
Opção A — filtrar na ingestão (
scripts/extract_houaiss_v2.py)Quando o parser deteta um suffix_form, validar:
<ou>(HTML)-(convenção de notação morfológica)',") ou caracteres de pontuação inesperadosOpção B — filtrar na carga (
WordDecompCache.load_from_pgStep 1)Mesmo filter mas aplicado quando o cache é construído. Mais isolado; não precisa rebuildar o banco.
Recomendação: Opção B — implementar como helper privado
_is_valid_suffix_form(form: str) -> boolemmasha/training/data_pipeline.py, aplicado emload_from_pgeload_pickle. Documentar em docstring.Critério de aceite
WordDecompCachecarregado tem 0 entries emsuffix_form_to_idmatching os 5 padrões acima.scripts/dump_decomp_cache.py) reflete o filter.Referências
docs/CACHE_ENRICHMENT_AUDIT.md— audit completacommit 122f02a— function-word filter (problema relacionado já endereçado)masha/training/data_pipeline.py— WordDecompCache.load_from_pg