O outlier do seed 43: variância de inicialização é real #19
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
No ablation word-level, o seed 43 foi um outlier: seeds 41 e 42 mostraram MASHA ganhando confortavelmente (Δ = -37 a -42 PPL), mas seed 43 mostrou MASHA perdendo (Δ = +7.6 PPL). Rodamos um diagnóstico de reprodutibilidade: o experimento do seed 43 foi repetido com config idêntica, e os números bateram exatamente. Isso confirma que (1) o pipeline é deterministicamente reprodutível, e (2) a variância entre seeds é variância real de inicialização, não bug. Conclusão prática: 3 seeds é pouco; é a "loteria de inicialização" se manifestando.
Background
Quando um experimento dá resultado misto entre seeds, há três possibilidades:
Os três cenários têm respostas diferentes. Bug = corrige o código. Loteria = aceita a variância e roda mais seeds. Sinal real fraco = roda mais seeds (e considera que talvez o efeito seja pequeno demais pra importar). Pra decidir, precisa-se de um teste de reprodutibilidade.
O que foi feito
O ablation_word original rodou 3 seeds (41, 42, 43) × 3 kinds × 2000 steps. Seed 43 foi outlier. Diagnóstico: rodar de novo só o seed 43, com config idêntica, e ver se reproduz.
Configuração exata: 1 seed × 3 kinds × 2000 steps × seq_len 64 × batch 2 × base_lr 0.0003 × cosine schedule + warmup × held-out 5% × device cuda × vocab N=200,005 (word-level) × deps
data/processed/wikipedia_pt_deps.parquet. Diretório de output:experiments/ablation_word_seed43_rerun/.O que foi encontrado
Bate dígito por dígito. Os números do rerun são idênticos aos do original, até a primeira casa decimal. Isso confirma que:
Por que isso importa
Três conclusões:
O pipeline é confiável. Os resultados nominais podem ser reproduzidos por qualquer pessoa com a mesma config e seed. Isso é pré-requisito pra qualquer alegação científica defensável.
A variância entre seeds é uma propriedade real da paisagem de loss, não um artefato. Diferentes seeds colocam o modelo em vales diferentes; alguns vales são bons pra MASHA, outros são bons pra Baseline. A 2000 steps, o modelo não tem tempo de escapar do vale onde caiu.
3 seeds é insuficiente. Quando um dos três cai num vale "ruim pra MASHA", ele move muito a média e infla o σ. Pra obter sinal estatisticamente robusto em condições com loteria pesada, precisa-se de N ≥ 5, idealmente N ≥ 10. Sem isso, o paired t-test fica subdimensionado (no nosso caso, |t|=1.44 mascara um efeito que pode ser real).
Implicações pra próximos experimentos
Daqui pra frente, decisões devem assumir:
Termos usados