Os três variance studies: por que MASHA estava perdendo #14
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
Em três experimentos preliminares com tokenização BPE, MASHA perdeu do Baseline em todas as configurações testadas. Em v3 (com toda a stack neuro-simbólica ligada), a diferença foi de -99 PPL com z-score de -5.47σ — sinal estatisticamente bem forte de que MASHA estava em desvantagem. Isso reposicionou completamente a pergunta de pesquisa.
Background
Um variance study é um experimento desenhado pra responder: "o resultado que estou vendo é sinal real ou pode ser só sorte de quem foi escolhido como seed?" A receita é simples: rode o mesmo experimento várias vezes mudando só o seed, calcule média e desvio padrão, e veja se a diferença entre as condições sobrevive ao ruído.
Desvio padrão (σ): medida de o quanto os resultados variam entre si. σ baixo = todas as rodadas deram número parecido. σ alto = ruído grande.
Z-score: quantos desvios padrão de distância está a diferença observada do zero. |z| > 1.96 normalmente é tratado como "significativo" (p < 0.05).
O que foi feito
Três configurações, cada uma com 3 seeds (41, 42, 43), 2 condições (MASHA vs Baseline), 2000 passos de treino, mesma GPU (A5000 16GB), mesmo dataset Wikipedia PT-BR tokenizado com BPE 32K.
root_dim=768, sem grammar_biasroot_dim=64, sem grammar_biasA motivação: v1 tinha mais parâmetros que o Baseline (188M vs ~125M), então o gap podia ser "MASHA é grande demais". v2 igualou o orçamento. v3 ligou o último componente para ver se ele resgatava.
O que foi encontrado
Resultados em perplexidade (PPL) no held-out:
Lê-se assim: nas três versões, Baseline foi mais baixo (melhor) em perplexidade. Em v3 a diferença ficou tão limpa (σ de MASHA caiu para 16.87, σ de Baseline para 6.59) que a probabilidade disso ser sorte é praticamente zero.
Observação importante: MASHA não estava explodindo. Estava convergindo, de forma consistente, num ótimo pior. σ do MASHA caiu de 28.77 (v1) para 16.87 (v3) — significa que os três seeds estavam concordando que MASHA é pior, não que MASHA estava no caos.
Por que isso importa
Isso rejeitou uma das hipóteses de trabalho ("a stack neuro-simbólica deve ajudar mesmo a 2K steps") e levantou duas alternativas, descritas nos próximos documentos:
Os ablations subsequentes (próximos documentos) vão investigar uma hipótese alternativa que ninguém tinha considerado nessa fase: e se o tipo de tokenização (BPE) estiver brigando com a stack morfêmica?
Termos usados
["am", "or"].