enrich_root_only_surfaces não é chamado no pipeline default #27
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
scripts/cache_enrichment.pyexporta duas funções:enrich_cache(chamada no fluxo de treino) eenrich_root_only_surfaces(criada como segunda passada que adiciona sufixos inflexionais a surfaces já no cache comroot_id != 0esuffix_ids == []). A segunda função nunca é chamada em produção — nem emrun_ablation_word.py, nem emdump_decomp_cache.py. Cobertura morfêmica está abaixo do potencial.O problema concreto
O cache tem ~484K surfaces com
root_id != 0. Destas, ~75K (15.4 %) têmsuffix_ids == []— ou seja, foram resolvidas pra um root via Houaiss/lexicon_fallback/chain_merge mas nunca receberam atribuição inflexional.enrich_root_only_surfacesfoi escrita exatamente pra isso: pra cada surface root-only, olha se algum sibling com mesmo root_id tem decomposição completa, e atribui o sufixo inflexional correspondente. Mas a função nunca é executada no pipeline normal.Resultado: 15 % do cache opera num tier "root-only" quando poderia estar no tier "decomposed", privando o Stream B (em masha_v3) de informação morfológica útil.
Por que isso é um problema agora
docs/MASHA_V3_DESIGN.md) consomesuffix_idsper posição. Surface root-only contribui só com root_embed + pos_embed; sem sufixo, perde-se a feature derivacional ("-mente", "-ção", etc.).Onde mexer
Em
scripts/run_ablation_word.py,_load_resources:Mesma adição em
scripts/dump_decomp_cache.pypra que o pickle persistente já venha enriquecido.Critério de aceite
cache.suffix_ids_ofpopulado pra surfaces antes root-only (verificar cominspect_input_stream.pyem palavras como "estuda" — deve manter-a).Risco
A função
enrich_root_only_surfacesiteracache.root_id_of.items()na ordem do dict — sensível a PYTHONHASHSEED. Pode produzir cache levemente diferente entre execuções se o hash seed mudar. Mitigação: ordenar items antes de iterar.Referências
scripts/cache_enrichment.py:230—enrich_root_only_surfacesdefinidadocs/CACHE_ENRICHMENT_AUDIT.md— audit que documentou a issue 3 (sobre-atribuição de sufixos vogais simples)docs/MASHA_V3_DESIGN.md— Stream B depende de suffix_ids