MASHA v0.3 cloud robustness não validada (cu130 vs cu128) #23

Open
opened 2026-05-14 02:13:45 -03:00 by navigator · 0 comments
Owner

TL;DR

A arquitetura v0.3 two-stream foi validada localmente em A5000 (cu128) com paired-t n=6 cruzando p<0.001 contra vanilla, DeepSeek MTP e Llama-recipe (docs/V3_MIXED_N6_RESULTS.md, docs/PHASE_DELTA_RESULTS.md). A v0.2 mostrou inversão de sinal entre cu128 (local) e cu130 (Vast.ai H200) — Δabc=−65 PPL local virou Δabc=+47 PPL na cloud na mesma seed (docs/CLOUD_EXPEDITION_REPORT.md). O design de v0.3 tem lower-bound matemático (gate α→1 degenera pra baseline), então deveria ser robusto, mas isso não foi empiricamente verificado.

Background

O incidente da expedição H200 (2026-05-13) gastou ~$60 USD descobrindo que v0.2 era frágil a numerics. A v0.3 foi desenhada explicitamente pra eliminar essa fragilidade: cada Stream tem sua trajetória independente, fusão é aditiva nos logits, gate aprende a ignorar Stream B quando ele é ruidoso.

Mas o experimento que validou v0.3 com p<0.001 (docs/V3_MIXED_N6_RESULTS.md) foi inteiramente local (A5000 cu128). A robustez contra perturbação numérica é uma propriedade arquitetural prevista, ainda sem dados empíricos.

Por que isso é um problema agora

  1. Se a publicação for fazer um claim "MASHA é robusta a numerics", precisamos do dado.
  2. Se a próxima fase for cloud-scale (Phase GAMMA → H100/H200), descobrir tarde demais que v3 também inverte na cloud seria caro.
  3. O lower-bound diz "v3 nunca pior que baseline" — isso deveria segurar mesmo sob numerics diferentes, mas é uma garantia matemática, não empírica.

O que precisa ser feito

  1. Quando houver budget cloud novamente: alugar A100 80GB ($1-2/h), rodar paired-t mixed-objective n=3 (12 cells × 2000 steps × batch 2 × seq 64) com kinds baseline + masha_v3 apenas.
  2. Esperado: baselines reproduzem números locais bit-identical OU com offset uniforme; Δv3 mantém sinal negativo (MASHA ganha).
  3. Se Δv3 inverter sinal na cloud (cenário catastrófico): investigar PYTHONHASHSEED, dict ordering em SparseAdam, ou SDPA backend.
  4. Se Δv3 manter direção mas magnitude diferente: documentar o offset, considerar Phase EPSILON cross-machine.

Critério de aceite

  • Paired-t n=3 cloud A100 com baseline + masha_v3: Δv3 < 0 em 3/3 seeds, t < −2 ou direção consistente com local.
  • OU diagnóstico claro do que causa inversão se acontecer.

Não-bloqueante (por enquanto)

A história publicável atual é "validado controladamente em A5000 local com p<0.001 contra vanilla / DeepSeek / Llama". Não precisamos da cloud pra essa claim. Só precisamos antes de afirmar robustez cross-platform.

Referências

  • docs/MASHA_V3_DESIGN.md — argumento de lower-bound
  • docs/CLOUD_EXPEDITION_REPORT.md — o incidente que motivou a refatoração
  • docs/V3_MIXED_N6_RESULTS.md — validação local n=6 p<0.001
## TL;DR A arquitetura v0.3 two-stream foi validada localmente em A5000 (cu128) com paired-t n=6 cruzando p<0.001 contra vanilla, DeepSeek MTP e Llama-recipe (`docs/V3_MIXED_N6_RESULTS.md`, `docs/PHASE_DELTA_RESULTS.md`). A v0.2 mostrou **inversão de sinal** entre cu128 (local) e cu130 (Vast.ai H200) — Δabc=−65 PPL local virou Δabc=+47 PPL na cloud na mesma seed (`docs/CLOUD_EXPEDITION_REPORT.md`). O design de v0.3 tem **lower-bound matemático** (gate α→1 degenera pra baseline), então deveria ser robusto, mas isso **não foi empiricamente verificado**. ## Background O incidente da expedição H200 (2026-05-13) gastou ~$60 USD descobrindo que v0.2 era frágil a numerics. A v0.3 foi desenhada explicitamente pra eliminar essa fragilidade: cada Stream tem sua trajetória independente, fusão é aditiva nos logits, gate aprende a ignorar Stream B quando ele é ruidoso. Mas o experimento que validou v0.3 com p<0.001 (`docs/V3_MIXED_N6_RESULTS.md`) foi **inteiramente local** (A5000 cu128). A robustez contra perturbação numérica é uma propriedade arquitetural prevista, ainda sem dados empíricos. ## Por que isso é um problema agora 1. Se a publicação for fazer um claim "MASHA é robusta a numerics", precisamos do dado. 2. Se a próxima fase for cloud-scale (Phase GAMMA → H100/H200), descobrir tarde demais que v3 também inverte na cloud seria caro. 3. O lower-bound diz "v3 nunca pior que baseline" — isso **deveria** segurar mesmo sob numerics diferentes, mas é uma garantia matemática, não empírica. ## O que precisa ser feito 1. Quando houver budget cloud novamente: alugar A100 80GB ($1-2/h), rodar paired-t mixed-objective n=3 (12 cells × 2000 steps × batch 2 × seq 64) com kinds `baseline + masha_v3` apenas. 2. Esperado: baselines reproduzem números locais bit-identical OU com offset uniforme; Δv3 mantém sinal negativo (MASHA ganha). 3. Se Δv3 inverter sinal na cloud (cenário catastrófico): investigar PYTHONHASHSEED, dict ordering em SparseAdam, ou SDPA backend. 4. Se Δv3 manter direção mas magnitude diferente: documentar o offset, considerar Phase EPSILON cross-machine. ## Critério de aceite - Paired-t n=3 cloud A100 com `baseline + masha_v3`: Δv3 < 0 em 3/3 seeds, t < −2 ou direção consistente com local. - OU diagnóstico claro do que causa inversão se acontecer. ## Não-bloqueante (por enquanto) A história publicável atual é "validado controladamente em A5000 local com p<0.001 contra vanilla / DeepSeek / Llama". Não precisamos da cloud pra essa claim. Só precisamos antes de afirmar robustez cross-platform. ## Referências - `docs/MASHA_V3_DESIGN.md` — argumento de lower-bound - `docs/CLOUD_EXPEDITION_REPORT.md` — o incidente que motivou a refatoração - `docs/V3_MIXED_N6_RESULTS.md` — validação local n=6 p<0.001
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
pop/MASHA#23
No description provided.