MASHA v0.3 cloud robustness não validada (cu130 vs cu128) #23
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
A arquitetura v0.3 two-stream foi validada localmente em A5000 (cu128) com paired-t n=6 cruzando p<0.001 contra vanilla, DeepSeek MTP e Llama-recipe (
docs/V3_MIXED_N6_RESULTS.md,docs/PHASE_DELTA_RESULTS.md). A v0.2 mostrou inversão de sinal entre cu128 (local) e cu130 (Vast.ai H200) — Δabc=−65 PPL local virou Δabc=+47 PPL na cloud na mesma seed (docs/CLOUD_EXPEDITION_REPORT.md). O design de v0.3 tem lower-bound matemático (gate α→1 degenera pra baseline), então deveria ser robusto, mas isso não foi empiricamente verificado.Background
O incidente da expedição H200 (2026-05-13) gastou ~$60 USD descobrindo que v0.2 era frágil a numerics. A v0.3 foi desenhada explicitamente pra eliminar essa fragilidade: cada Stream tem sua trajetória independente, fusão é aditiva nos logits, gate aprende a ignorar Stream B quando ele é ruidoso.
Mas o experimento que validou v0.3 com p<0.001 (
docs/V3_MIXED_N6_RESULTS.md) foi inteiramente local (A5000 cu128). A robustez contra perturbação numérica é uma propriedade arquitetural prevista, ainda sem dados empíricos.Por que isso é um problema agora
O que precisa ser feito
baseline + masha_v3apenas.Critério de aceite
baseline + masha_v3: Δv3 < 0 em 3/3 seeds, t < −2 ou direção consistente com local.Não-bloqueante (por enquanto)
A história publicável atual é "validado controladamente em A5000 local com p<0.001 contra vanilla / DeepSeek / Llama". Não precisamos da cloud pra essa claim. Só precisamos antes de afirmar robustez cross-platform.
Referências
docs/MASHA_V3_DESIGN.md— argumento de lower-bounddocs/CLOUD_EXPEDITION_REPORT.md— o incidente que motivou a refatoraçãodocs/V3_MIXED_N6_RESULTS.md— validação local n=6 p<0.001