Word-level: a direção se inverteu — MASHA ganhou #18

Open
opened 2026-05-14 02:13:44 -03:00 by navigator · 0 comments
Owner

TL;DR

Repetimos o ablation 3-way trocando BPE por tokenização word-level. Resultado: A+B agora ajudam, com Δμ = -22.72 PPL (MASHA é melhor que Baseline). O sinal não é estatisticamente forte ainda (paired t = -1.44, dentro do ruído de 3 seeds), mas a direção do efeito virou de cabeça pra baixo: em BPE, MASHA perdia; em word-level, MASHA ganha. Isso é a primeira evidência empírica forte de que BPE era a incompatibilidade arquitetural.

Background

O doc 06 propôs: BPE fragmenta palavras de forma incompatível com o prior morfêmico do MASHA, e isso pode explicar por que A+B pioravam o modelo nos ablations anteriores. A previsão testável: trocar BPE por word-level deveria inverter a direção do efeito.

Tokenização word-level: cada palavra do português vira um token único. Vocabulário cresce para ~200.005 tokens (200K palavras + tokens especiais), 6× maior que o BPE 32K. Em compensação, o sinal morfêmico fica perfeitamente alinhado — cada token de entrada é uma palavra inteira reconhecível pelo decompositor morfêmico.

O que foi feito

Mesma receita do ablation BPE (doc 05): 3 seeds (41, 42, 43) × 3 kinds (baseline / masha_ab / masha_abc) × 2000 steps × seq_len 64 × batch 2 × GPU A5000. Única variável trocada: vocabulário N=200.005 (word-level) em vez de N=32K (BPE).

Tudo o mais idêntico: mesmo dataset Wikipedia PT-BR, mesmo otimizador, mesma dependência parquet do Stanza, mesma config de modelo, mesmo schedule de learning rate.

O que foi encontrado

seed baseline masha_ab masha_abc Δ(ab-base) Δ(abc-base) Δ(abc-ab)
41 1518.1 1478.1 1486.6 -40.1 -31.5 +8.6
42 1510.9 1474.1 1468.6 -36.8 -42.3 -5.5
43 1536.0 1544.7 1543.6 +8.7 +7.6 -1.1

Médias pareadas:

  • Δ(ab − baseline): μ = -22.72, σ = 27.27, paired t = -1.44
  • Δ(abc − baseline): μ = -22.06, σ = 26.28, paired t = -1.45
  • Δ(abc − ab): μ = +0.66, σ = 7.19, paired t = +0.16

Compare com o ablation BPE (doc 05):

métrica BPE Word-level
Δ(ab − base) μ +39.56 -22.72
Δ(abc − base) μ +30.03 -22.06

A direção virou. Em BPE, A+B piorava em +40 PPL. Em word-level, A+B melhora em -23 PPL. Mudança de Δ de +62 PPL entre os dois regimes de tokenização — isso é gigante.

A nuance: seed 43 é um outlier

Repare na tabela: seeds 41 e 42 mostram MASHA ganhando confortavelmente (-40, -37 e -32, -42). Seed 43 mostra o oposto, mas com magnitude pequena (+8.7, +7.6). É essa rebelião do seed 43 que mantém o paired t-test em |t|=1.44 (abaixo do limiar de 2.0 pra significância clássica).

Esse outlier virou objeto de investigação separada — ver doc 08.

Por que isso importa

Três conclusões fortes:

  1. A hipótese da incoerência BPE foi corroborada. A previsão "trocar BPE por word-level inverte a direção" se cumpriu. Não é prova final (precisamos de mais seeds), mas é evidência convincente.

  2. O componente C (grammar_bias) continua sendo neutro. Δ(abc−ab) ≈ 0 em ambos os regimes. Ligar/desligar grammar_bias é um wash. Isso simplifica a investigação futura.

  3. A arquitetura MASHA não é defeituosa em essência — o problema era de match com a tokenização. Quando o token de entrada respeita unidade morfêmica, o prior linguístico ajuda o modelo a aprender mais rápido.

A tese de Marcos ("from-scratch sample efficiency via prior linguístico") está viva de novo. Mas o caminho pra confirmá-la ficou claro: precisamos de mais seeds e uma rig de avaliação mais robusta (ver docs 09 e 10).

Termos usados

  • Word-level tokenization: cada palavra do idioma é um token único. Vocabulário gigante mas sem fragmentação.
  • Outlier: amostra que destoa fortemente das outras. Pode ser sinal de bug ou variância real de inicialização.
  • Paired t-test: ver doc 05. |t| < 2 = sinal ainda dentro do ruído.
  • Inversão de direção: o sinal do efeito (positivo vs negativo) muda de uma condição para outra. Evidência forte de interação entre variáveis.
  • Δμ (delta da média): diferença das médias entre duas condições.
  • Wash: termo informal para "efeito que se cancela", quase zero líquido.
## TL;DR Repetimos o ablation 3-way trocando BPE por **tokenização word-level**. Resultado: A+B agora **ajudam**, com Δμ = -22.72 PPL (MASHA é melhor que Baseline). O sinal não é estatisticamente forte ainda (paired t = -1.44, dentro do ruído de 3 seeds), mas a **direção do efeito virou de cabeça pra baixo**: em BPE, MASHA perdia; em word-level, MASHA ganha. Isso é a primeira evidência empírica forte de que BPE era a incompatibilidade arquitetural. ## Background O doc `06` propôs: BPE fragmenta palavras de forma incompatível com o prior morfêmico do MASHA, e isso pode explicar por que A+B *pioravam* o modelo nos ablations anteriores. A previsão testável: **trocar BPE por word-level deveria inverter a direção do efeito**. Tokenização word-level: cada palavra do português vira um token único. Vocabulário cresce para ~200.005 tokens (200K palavras + tokens especiais), 6× maior que o BPE 32K. Em compensação, o sinal morfêmico fica perfeitamente alinhado — cada token de entrada é uma palavra inteira reconhecível pelo decompositor morfêmico. ## O que foi feito Mesma receita do ablation BPE (doc `05`): 3 seeds (41, 42, 43) × 3 kinds (`baseline` / `masha_ab` / `masha_abc`) × 2000 steps × seq_len 64 × batch 2 × GPU A5000. **Única variável trocada**: vocabulário N=200.005 (word-level) em vez de N=32K (BPE). Tudo o mais idêntico: mesmo dataset Wikipedia PT-BR, mesmo otimizador, mesma dependência parquet do Stanza, mesma config de modelo, mesmo schedule de learning rate. ## O que foi encontrado | seed | baseline | masha_ab | masha_abc | Δ(ab-base) | Δ(abc-base) | Δ(abc-ab) | |---|---:|---:|---:|---:|---:|---:| | 41 | 1518.1 | 1478.1 | 1486.6 | **-40.1** | **-31.5** | +8.6 | | 42 | 1510.9 | 1474.1 | 1468.6 | **-36.8** | **-42.3** | -5.5 | | 43 | 1536.0 | 1544.7 | 1543.6 | +8.7 | +7.6 | -1.1 | Médias pareadas: - **Δ(ab − baseline)**: μ = **-22.72**, σ = 27.27, paired t = -1.44 - **Δ(abc − baseline)**: μ = **-22.06**, σ = 26.28, paired t = -1.45 - **Δ(abc − ab)**: μ = +0.66, σ = 7.19, paired t = +0.16 Compare com o ablation BPE (doc `05`): | métrica | BPE | Word-level | |---|---:|---:| | Δ(ab − base) μ | **+39.56** | **-22.72** | | Δ(abc − base) μ | +30.03 | -22.06 | **A direção virou.** Em BPE, A+B *piorava* em +40 PPL. Em word-level, A+B *melhora* em -23 PPL. Mudança de Δ de **+62 PPL** entre os dois regimes de tokenização — isso é gigante. ## A nuance: seed 43 é um outlier Repare na tabela: seeds 41 e 42 mostram MASHA ganhando confortavelmente (-40, -37 e -32, -42). Seed 43 mostra o oposto, mas com magnitude pequena (+8.7, +7.6). É essa rebelião do seed 43 que mantém o paired t-test em |t|=1.44 (abaixo do limiar de 2.0 pra significância clássica). Esse outlier virou objeto de investigação separada — ver doc `08`. ## Por que isso importa Três conclusões fortes: 1. **A hipótese da incoerência BPE foi corroborada**. A previsão "trocar BPE por word-level inverte a direção" se cumpriu. Não é prova final (precisamos de mais seeds), mas é evidência convincente. 2. **O componente C (grammar_bias) continua sendo neutro**. Δ(abc−ab) ≈ 0 em ambos os regimes. Ligar/desligar grammar_bias é um wash. Isso simplifica a investigação futura. 3. **A arquitetura MASHA não é defeituosa em essência** — o problema era de match com a tokenização. Quando o token de entrada respeita unidade morfêmica, o prior linguístico ajuda o modelo a aprender mais rápido. A tese de Marcos ("from-scratch sample efficiency via prior linguístico") está viva de novo. Mas o caminho pra confirmá-la ficou claro: precisamos de mais seeds e uma rig de avaliação mais robusta (ver docs `09` e `10`). ## Termos usados - **Word-level tokenization**: cada palavra do idioma é um token único. Vocabulário gigante mas sem fragmentação. - **Outlier**: amostra que destoa fortemente das outras. Pode ser sinal de bug ou variância real de inicialização. - **Paired t-test**: ver doc `05`. |t| < 2 = sinal ainda dentro do ruído. - **Inversão de direção**: o sinal do efeito (positivo vs negativo) muda de uma condição para outra. Evidência forte de interação entre variáveis. - **Δμ (delta da média)**: diferença das médias entre duas condições. - **Wash**: termo informal para "efeito que se cancela", quase zero líquido.
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
pop/MASHA#18
No description provided.