O que é o MASHA #1

Open
opened 2026-05-11 18:28:18 -03:00 by navigator · 0 comments
Owner

TL;DR

MASHA é um modelo de linguagem em português que tenta aprender a língua mais rápido que um Transformer comum injetando conhecimento linguístico humano (morfologia, classes gramaticais, dependências sintáticas) direto na arquitetura. A pergunta de pesquisa: priors estruturais conseguem reduzir a quantidade de dados necessária para treinar do zero?

Background

Um modelo de linguagem (LM) é um sistema que aprende a prever a próxima palavra (ou pedaço de palavra) numa sequência. GPT, Llama, Gemma — todos são LMs. A receita padrão é: pega muito texto, joga num Transformer (uma arquitetura de rede neural com mecanismo de atenção), treina por bilhões de tokens, e o modelo "aprende" gramática, fatos e estilo de forma totalmente implícita, só por estatística.

MASHA significa Modelo de Arquitetura Semântica Hierárquica Avançada. Em vez de deixar o modelo redescobrir, do zero, que aviador e aviação compartilham uma raiz, ou que verbos concordam com sujeitos, MASHA tenta plantar essa estrutura na arquitetura desde o início.

A motivação prática: treinar LMs custa caro e exige bilhões de tokens. Se priors linguísticos derem ao modelo um "empurrão" na partida, talvez ele atinja a mesma qualidade com menos dados — sample efficiency, em jargão técnico.

O que estamos fazendo

Estamos construindo dois modelos do mesmo tamanho (~125M parâmetros, escala "Nano"):

  1. Baseline — Transformer puro, sem nenhum prior linguístico.
  2. MASHA — mesmo Transformer, mas com três componentes neuro-simbólicos adicionados (descritos no doc 02-the-three-components.md).

Os dois treinam com os mesmos dados (Wikipedia em português), mesmo otimizador, mesma sequência de seeds. A única variável é a stack neuro-simbólica. Comparamos lado a lado quem aprende melhor.

A tese de Marcos: "from-scratch sample efficiency" — se MASHA é melhor, ele tem que ganhar do baseline treinando do zero, sem fine-tuning de modelos pré-treinados. Adapter approach (botar MASHA em cima de um GPT-PT já pronto) foi explicitamente descartado.

O que encontramos até agora

Em 3 estudos preliminares (chamados de variance studies v1/v2/v3), MASHA perdeu do baseline em escala Nano a 2.000 passos de treino. Diferença de até -99 pontos de perplexidade (PPL) — quanto menor PPL, melhor o modelo.

Isso virou um problema interessante: a tese pode estar errada, OU a arquitetura tem um bug, OU 2.000 passos é pouco demais. Os próximos documentos contam a investigação.

Por que isso importa

Se a tese se confirma, MASHA mostra que linguística simbólica clássica (morfologia, sintaxe) ainda tem valor na era dos LLMs neurais — e que dá pra treinar modelos competitivos sem o orçamento computacional do Google. Se a tese cai, ainda é resultado válido: registra-se que priors humanos em escala pequena não compensam, e o campo segue. Em qualquer cenário, a investigação produz documentação útil sobre como medir essas coisas com rigor.

Termos usados

  • Modelo de Linguagem (LM): rede neural que prevê a próxima palavra/token numa sequência.
  • Transformer: arquitetura padrão de redes neurais para texto, baseada em "atenção" (cada token decide a quais outros tokens prestar atenção).
  • Token: unidade mínima processada pelo modelo. Pode ser palavra inteira, pedaço de palavra (BPE), ou caractere.
  • Perplexidade (PPL): o quão "surpreso" o modelo fica com a próxima palavra. Quanto menor, melhor. Intuição: PPL=10 significa que, em média, o modelo hesita entre 10 palavras plausíveis na próxima posição.
  • Prior: conhecimento embutido na arquitetura antes do treino. Um modelo sem prior tem que aprender tudo dos dados; um modelo com prior já começa "sabendo" algumas regras.
  • Neuro-simbólico: combinação de redes neurais (parte "neuro") com regras/símbolos linguísticos explícitos (parte "simbólica").
  • Sample efficiency: quantos exemplos o modelo precisa para atingir certa qualidade. Mais eficiente = aprende com menos dados.
  • Seed: número inteiro que inicializa todos os geradores aleatórios do treino (pesos iniciais, ordem dos dados). Mudar seed = rodar o mesmo experimento "noutra realidade".
## TL;DR MASHA é um modelo de linguagem em português que tenta aprender a língua mais rápido que um Transformer comum injetando **conhecimento linguístico humano** (morfologia, classes gramaticais, dependências sintáticas) direto na arquitetura. A pergunta de pesquisa: priors estruturais conseguem reduzir a quantidade de dados necessária para treinar do zero? ## Background Um **modelo de linguagem** (LM) é um sistema que aprende a prever a próxima palavra (ou pedaço de palavra) numa sequência. GPT, Llama, Gemma — todos são LMs. A receita padrão é: pega muito texto, joga num Transformer (uma arquitetura de rede neural com mecanismo de atenção), treina por bilhões de tokens, e o modelo "aprende" gramática, fatos e estilo de forma totalmente implícita, só por estatística. MASHA significa **Modelo de Arquitetura Semântica Hierárquica Avançada**. Em vez de deixar o modelo redescobrir, do zero, que `aviador` e `aviação` compartilham uma raiz, ou que verbos concordam com sujeitos, MASHA tenta **plantar essa estrutura na arquitetura desde o início**. A motivação prática: treinar LMs custa caro e exige bilhões de tokens. Se priors linguísticos derem ao modelo um "empurrão" na partida, talvez ele atinja a mesma qualidade com menos dados — **sample efficiency**, em jargão técnico. ## O que estamos fazendo Estamos construindo dois modelos do mesmo tamanho (~125M parâmetros, escala "Nano"): 1. **Baseline** — Transformer puro, sem nenhum prior linguístico. 2. **MASHA** — mesmo Transformer, mas com três componentes neuro-simbólicos adicionados (descritos no doc `02-the-three-components.md`). Os dois treinam com os mesmos dados (Wikipedia em português), mesmo otimizador, mesma sequência de seeds. **A única variável é a stack neuro-simbólica.** Comparamos lado a lado quem aprende melhor. A tese de Marcos: "from-scratch sample efficiency" — se MASHA é melhor, ele tem que ganhar do baseline treinando do zero, sem fine-tuning de modelos pré-treinados. Adapter approach (botar MASHA em cima de um GPT-PT já pronto) foi explicitamente descartado. ## O que encontramos até agora Em 3 estudos preliminares (chamados de variance studies v1/v2/v3), MASHA **perdeu** do baseline em escala Nano a 2.000 passos de treino. Diferença de até -99 pontos de perplexidade (PPL) — quanto menor PPL, melhor o modelo. Isso virou um problema interessante: a tese pode estar errada, OU a arquitetura tem um bug, OU 2.000 passos é pouco demais. Os próximos documentos contam a investigação. ## Por que isso importa Se a tese se confirma, MASHA mostra que linguística simbólica clássica (morfologia, sintaxe) ainda tem valor na era dos LLMs neurais — e que dá pra treinar modelos competitivos sem o orçamento computacional do Google. Se a tese cai, ainda é resultado válido: registra-se que priors humanos em escala pequena não compensam, e o campo segue. Em qualquer cenário, a investigação produz documentação útil sobre como medir essas coisas com rigor. ## Termos usados - **Modelo de Linguagem (LM)**: rede neural que prevê a próxima palavra/token numa sequência. - **Transformer**: arquitetura padrão de redes neurais para texto, baseada em "atenção" (cada token decide a quais outros tokens prestar atenção). - **Token**: unidade mínima processada pelo modelo. Pode ser palavra inteira, pedaço de palavra (BPE), ou caractere. - **Perplexidade (PPL)**: o quão "surpreso" o modelo fica com a próxima palavra. Quanto menor, melhor. Intuição: PPL=10 significa que, em média, o modelo hesita entre 10 palavras plausíveis na próxima posição. - **Prior**: conhecimento embutido na arquitetura antes do treino. Um modelo sem prior tem que aprender tudo dos dados; um modelo com prior já começa "sabendo" algumas regras. - **Neuro-simbólico**: combinação de redes neurais (parte "neuro") com regras/símbolos linguísticos explícitos (parte "simbólica"). - **Sample efficiency**: quantos exemplos o modelo precisa para atingir certa qualidade. Mais eficiente = aprende com menos dados. - **Seed**: número inteiro que inicializa todos os geradores aleatórios do treino (pesos iniciais, ordem dos dados). Mudar seed = rodar o mesmo experimento "noutra realidade".
Sign in to join this conversation.
No labels
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
pop/MASHA#1
No description provided.