O que é o MASHA #1
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
TL;DR
MASHA é um modelo de linguagem em português que tenta aprender a língua mais rápido que um Transformer comum injetando conhecimento linguístico humano (morfologia, classes gramaticais, dependências sintáticas) direto na arquitetura. A pergunta de pesquisa: priors estruturais conseguem reduzir a quantidade de dados necessária para treinar do zero?
Background
Um modelo de linguagem (LM) é um sistema que aprende a prever a próxima palavra (ou pedaço de palavra) numa sequência. GPT, Llama, Gemma — todos são LMs. A receita padrão é: pega muito texto, joga num Transformer (uma arquitetura de rede neural com mecanismo de atenção), treina por bilhões de tokens, e o modelo "aprende" gramática, fatos e estilo de forma totalmente implícita, só por estatística.
MASHA significa Modelo de Arquitetura Semântica Hierárquica Avançada. Em vez de deixar o modelo redescobrir, do zero, que
aviadoreaviaçãocompartilham uma raiz, ou que verbos concordam com sujeitos, MASHA tenta plantar essa estrutura na arquitetura desde o início.A motivação prática: treinar LMs custa caro e exige bilhões de tokens. Se priors linguísticos derem ao modelo um "empurrão" na partida, talvez ele atinja a mesma qualidade com menos dados — sample efficiency, em jargão técnico.
O que estamos fazendo
Estamos construindo dois modelos do mesmo tamanho (~125M parâmetros, escala "Nano"):
02-the-three-components.md).Os dois treinam com os mesmos dados (Wikipedia em português), mesmo otimizador, mesma sequência de seeds. A única variável é a stack neuro-simbólica. Comparamos lado a lado quem aprende melhor.
A tese de Marcos: "from-scratch sample efficiency" — se MASHA é melhor, ele tem que ganhar do baseline treinando do zero, sem fine-tuning de modelos pré-treinados. Adapter approach (botar MASHA em cima de um GPT-PT já pronto) foi explicitamente descartado.
O que encontramos até agora
Em 3 estudos preliminares (chamados de variance studies v1/v2/v3), MASHA perdeu do baseline em escala Nano a 2.000 passos de treino. Diferença de até -99 pontos de perplexidade (PPL) — quanto menor PPL, melhor o modelo.
Isso virou um problema interessante: a tese pode estar errada, OU a arquitetura tem um bug, OU 2.000 passos é pouco demais. Os próximos documentos contam a investigação.
Por que isso importa
Se a tese se confirma, MASHA mostra que linguística simbólica clássica (morfologia, sintaxe) ainda tem valor na era dos LLMs neurais — e que dá pra treinar modelos competitivos sem o orçamento computacional do Google. Se a tese cai, ainda é resultado válido: registra-se que priors humanos em escala pequena não compensam, e o campo segue. Em qualquer cenário, a investigação produz documentação útil sobre como medir essas coisas com rigor.
Termos usados