Os três variance studies: por que MASHA estava perdendo #14

New issue

Open

opened 2026-05-14 02:13:43 -03:00 by navigator · 0 comments

navigator commented

2026-05-14 02:13:43 -03:00

Owner

TL;DR

Em três experimentos preliminares com tokenização BPE, MASHA perdeu do Baseline em todas as configurações testadas. Em v3 (com toda a stack neuro-simbólica ligada), a diferença foi de -99 PPL com z-score de -5.47σ — sinal estatisticamente bem forte de que MASHA estava em desvantagem. Isso reposicionou completamente a pergunta de pesquisa.

Background

Um variance study é um experimento desenhado pra responder: "o resultado que estou vendo é sinal real ou pode ser só sorte de quem foi escolhido como seed?" A receita é simples: rode o mesmo experimento várias vezes mudando só o seed, calcule média e desvio padrão, e veja se a diferença entre as condições sobrevive ao ruído.

Desvio padrão (σ): medida de o quanto os resultados variam entre si. σ baixo = todas as rodadas deram número parecido. σ alto = ruído grande.

Z-score: quantos desvios padrão de distância está a diferença observada do zero. |z| > 1.96 normalmente é tratado como "significativo" (p < 0.05).

O que foi feito

Três configurações, cada uma com 3 seeds (41, 42, 43), 2 condições (MASHA vs Baseline), 2000 passos de treino, mesma GPU (A5000 16GB), mesmo dataset Wikipedia PT-BR tokenizado com BPE 32K.

versão	configuração MASHA	params
v1	morfêmico com `root_dim=768`, sem grammar_bias	188 M
v2	morfêmico fatorizado para `root_dim=64`, sem grammar_bias	116 M
v3	v2 + grammar_bias completo	116 M

A motivação: v1 tinha mais parâmetros que o Baseline (188M vs ~125M), então o gap podia ser "MASHA é grande demais". v2 igualou o orçamento. v3 ligou o último componente para ver se ele resgatava.

O que foi encontrado

Resultados em perplexidade (PPL) no held-out:

versão	Δμ (Baseline − MASHA) PPL	z-score	leitura
v1	-74.04	-1.77σ	sinal fraco contra MASHA
v2	-91.90	-2.09σ	gap aumentou após igualar parâmetros
v3	-99.13	-5.47σ	stack completa, MASHA perde com força

Lê-se assim: nas três versões, Baseline foi mais baixo (melhor) em perplexidade. Em v3 a diferença ficou tão limpa (σ de MASHA caiu para 16.87, σ de Baseline para 6.59) que a probabilidade disso ser sorte é praticamente zero.

Observação importante: MASHA não estava explodindo. Estava convergindo, de forma consistente, num ótimo pior. σ do MASHA caiu de 28.77 (v1) para 16.87 (v3) — significa que os três seeds estavam concordando que MASHA é pior, não que MASHA estava no caos.

Por que isso importa

Isso rejeitou uma das hipóteses de trabalho ("a stack neuro-simbólica deve ajudar mesmo a 2K steps") e levantou duas alternativas, descritas nos próximos documentos:

Hipótese A (que v3 já rejeitou): grammar_bias é o ingrediente que faltava — se ligar ele, MASHA passa o Baseline. Resposta: não. V3 ligou e MASHA perdeu mais.
Hipótese B (única ainda viva): MASHA precisa de muito mais dados que 2K × 4 = 8K exemplos para o prior linguístico render. Estimativa de Marcos: ~2 bilhões de tokens (125K vocab × 5-10 palavras × bilhões de frases).

Os ablations subsequentes (próximos documentos) vão investigar uma hipótese alternativa que ninguém tinha considerado nessa fase: e se o tipo de tokenização (BPE) estiver brigando com a stack morfêmica?

Termos usados

Variance study: experimento que mede se um efeito é real ou ruído entre seeds.
Desvio padrão (σ): o quanto os resultados se afastam da média. Baixo = consistente.
Z-score: número de desvios padrão entre a diferença observada e zero. |z| > 1.96 = significativo a 5%.
Perplexidade (PPL): o quanto o modelo se surpreende com o próximo token. Menor = melhor.
Held-out: pedaço dos dados separado e nunca usado pra treino. Mede generalização real.
Tokenização BPE: divisão de palavras em pedaços subword reusáveis. "amor" pode virar ["am", "or"].
Hipótese A vs B: convenção interna deste projeto. A = "falta ligar a peça certa"; B = "falta escala de dados".

## TL;DR Em três experimentos preliminares com tokenização BPE, MASHA perdeu do Baseline em todas as configurações testadas. Em v3 (com toda a stack neuro-simbólica ligada), a diferença foi de -99 PPL com z-score de -5.47σ — sinal estatisticamente bem forte de que MASHA estava em desvantagem. Isso reposicionou completamente a pergunta de pesquisa. ## Background Um **variance study** é um experimento desenhado pra responder: "o resultado que estou vendo é sinal real ou pode ser só sorte de quem foi escolhido como seed?" A receita é simples: rode o mesmo experimento várias vezes mudando só o seed, calcule média e desvio padrão, e veja se a diferença entre as condições sobrevive ao ruído. **Desvio padrão (σ)**: medida de o quanto os resultados variam entre si. σ baixo = todas as rodadas deram número parecido. σ alto = ruído grande. **Z-score**: quantos desvios padrão de distância está a diferença observada do zero. |z| > 1.96 normalmente é tratado como "significativo" (p < 0.05). ## O que foi feito Três configurações, cada uma com 3 seeds (41, 42, 43), 2 condições (MASHA vs Baseline), 2000 passos de treino, mesma GPU (A5000 16GB), mesmo dataset Wikipedia PT-BR tokenizado com **BPE 32K**. | versão | configuração MASHA | params | |---|---|---:| | v1 | morfêmico com `root_dim=768`, sem grammar_bias | 188 M | | v2 | morfêmico fatorizado para `root_dim=64`, sem grammar_bias | 116 M | | v3 | v2 **+** grammar_bias completo | 116 M | A motivação: v1 tinha mais parâmetros que o Baseline (188M vs ~125M), então o gap podia ser "MASHA é grande demais". v2 igualou o orçamento. v3 ligou o último componente para ver se ele resgatava. ## O que foi encontrado Resultados em perplexidade (PPL) no held-out: | versão | Δμ (Baseline − MASHA) PPL | z-score | leitura | |---|---:|---:|---| | v1 | -74.04 | -1.77σ | sinal fraco contra MASHA | | v2 | -91.90 | -2.09σ | gap aumentou após igualar parâmetros | | v3 | **-99.13** | **-5.47σ** | stack completa, MASHA perde com força | Lê-se assim: nas três versões, **Baseline foi mais baixo (melhor) em perplexidade**. Em v3 a diferença ficou tão limpa (σ de MASHA caiu para 16.87, σ de Baseline para 6.59) que a probabilidade disso ser sorte é praticamente zero. Observação importante: **MASHA não estava explodindo**. Estava convergindo, de forma consistente, num ótimo pior. σ do MASHA caiu de 28.77 (v1) para 16.87 (v3) — significa que os três seeds estavam concordando que MASHA é pior, não que MASHA estava no caos. ## Por que isso importa Isso rejeitou uma das hipóteses de trabalho ("a stack neuro-simbólica deve ajudar mesmo a 2K steps") e levantou duas alternativas, descritas nos próximos documentos: - **Hipótese A** (que v3 já rejeitou): grammar_bias é o ingrediente que faltava — se ligar ele, MASHA passa o Baseline. Resposta: não. V3 ligou e MASHA perdeu mais. - **Hipótese B** (única ainda viva): MASHA precisa de muito mais dados que 2K × 4 = 8K exemplos para o prior linguístico render. Estimativa de Marcos: ~2 bilhões de tokens (125K vocab × 5-10 palavras × bilhões de frases). Os ablations subsequentes (próximos documentos) vão investigar uma hipótese alternativa que ninguém tinha considerado nessa fase: e se o **tipo de tokenização (BPE)** estiver brigando com a stack morfêmica? ## Termos usados - **Variance study**: experimento que mede se um efeito é real ou ruído entre seeds. - **Desvio padrão (σ)**: o quanto os resultados se afastam da média. Baixo = consistente. - **Z-score**: número de desvios padrão entre a diferença observada e zero. |z| > 1.96 = significativo a 5%. - **Perplexidade (PPL)**: o quanto o modelo se surpreende com o próximo token. Menor = melhor. - **Held-out**: pedaço dos dados separado e nunca usado pra treino. Mede generalização real. - **Tokenização BPE**: divisão de palavras em pedaços subword reusáveis. "amor" pode virar `["am", "or"]`. - **Hipótese A vs B**: convenção interna deste projeto. A = "falta ligar a peça certa"; B = "falta escala de dados".

No labels

No milestone

No project

No assignees

1 participant

Notifications

Due date

The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference

pop/MASHA#14

No description provided.

Rows
Columns