Fundação vs iteração: por que paramos de experimentar #20
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
Depois da inversão de direção no word-level (doc
07) e da confirmação do outlier do seed 43 (doc08), a tentação foi rodar logo mais 5 seeds, mais ablations, mais variantes. Em vez disso, a decisão foi parar e construir uma rig de avaliação melhor primeiro. A lógica: se a fundação de medição tem erro de 5%, e você itera 10 vezes em cima dela, o erro composto é (1.05)^10 ≈ 1.63 — você se desvia em 63% sem perceber. Investir na medição agora multiplica o valor de cada experimento futuro.Background
Em qualquer trabalho de pesquisa empírica, existe uma tensão entre duas estratégias:
O ponto onde uma vira mais valiosa que a outra depende de quanto você confia no instrumento atual. Se você confia, itere. Se desconfia, conserte primeiro.
O insight do x^n
A intuição de Marcos foi formulada assim: erros em fundação compõem ao longo de iterações. Se o pipeline atual tem 5% de margem de erro num tipo de medida (digamos, PPL como métrica de qualidade), e você toma 10 decisões sucessivas em cima desses números, a deriva composta é:
Isto é: depois de 10 iterações, você está 63% desviado do que pensava medir. Pior, esse desvio é silencioso — não há indicador na tela dizendo "atenção, suas decisões dos últimos 10 experimentos compuseram erro de 60%".
A reverse: se a fundação for sólida (digamos, erro de 1%), 10 iterações compõem (1.01)^10 ≈ 1.10 — só 10% de deriva. Cada ponto percentual de melhoria na fundação tem efeito multiplicativo nas conclusões futuras.
O estado atual da fundação MASHA
Olhando criticamente, várias fragilidades vieram à tona depois dos ablations:
PPL como única métrica. Perplexidade é um proxy pra qualidade do modelo. Não é qualidade. Modelos com PPL parecidas podem ter diferenças enormes em tarefas downstream (geração coerente, parsing, classificação). Precisamos de mais métricas.
Held-out simples. Nosso held-out é 5% aleatório do mesmo Wikipedia. Não testa generalização para domínios diferentes (notícia, literatura, fala).
Sem mascaramento controlado. Não medimos o que o modelo prevê em posições específicas (substantivos, verbos, dependências). Só o agregado.
Hiperparâmetros não trancados. LR, batch, schedule podem estar otimizados pro Baseline e atrapalhando MASHA (ou vice-versa). Sem um sweep formal, qualquer comparação tem essa dúvida latente.
N=3 seeds. Como o doc
08mostrou, é pouco. Precisamos de mais — mas rodar 10 seeds × 6 ablations × 2K steps custa GPU.A decisão
Em vez de rodar imediatamente mais 5 seeds do ablation word-level (o caminho da iteração rápida), a decisão foi pausar e construir a rig de avaliação Tier 1:
Detalhes da rig estão no doc
10.Por que isso importa
A engenheira humana tem um instinto comum: "tá quase, só mais um experimento". Esse instinto, em pesquisa de ML, é o caminho mais curto pra conclusões falsas com confiança alta. Os papers do campo cheios de "achamos X" que ninguém consegue reproduzir geralmente vieram de iteração rápida sobre fundação fraca.
MASHA tem uma chance real de virar resultado científico defensável se as próximas comparações vierem instrumentadas. Pular esse passo agora salva semana ou duas; cobra meses depois quando outras pessoas tentarem replicar e o castelo cair.
A regra de bolso de Marcos: se a próxima decisão importa, vale a pena pagar pra medir bem agora.
Termos usados
(1 + ε)^ncresce exponencialmente emn.10.