Tabela etimológica e morfêmica derivada do Houaiss para MASHA (~27K etymologies, ~42K morphemes)
Find a file
Marcos 2037280d4d v2: refined morpheme→etymology links via second-pass cross-lookup
Coverage of real (non-UNKNOWN) etymology per morpheme rose from 1.5% to 22.7%.
The most productive PT-BR suffixes now point at their own correct etymologies:

  -mento  ← do lat.vulg. -mentu
  -ismo   ← do gr. -ismós
  -ista   ← do suf. gr. -istés
  -or     ← do lat. -óris
  -dor    ← do lat. -tor
  -ada    ← do lat. -átu(s),-áta
  -ado    ← do lat. -átu,-áta
  -al     ← do suf. lat. -ális,-ále
  -ar     ← do lat. -aris,e
  -ico    ← do lat.vulg. -icu/-iccu
  -oso    ← de orig. lat., -ósus,a,um
  -ês     ← do lat.vulg. -ense
  -tor    ← do lat. -tor
  -eiro   ← dos suf. lat. -arìus,a,um

The refinement logic (in MASHA/scripts/refine_morpheme_etymologies.py) tries
each morpheme against its likely lexicon headwords (form, -form, form-) and
parses 'do lat. X' / 'pelo lat. Y' patterns out of either sources_variants
or the definition itself.

Coverage by language (morphemes pointing at real etym):
  lat 6479  gr 1019  fr 792  esp 333  tupi 321  ing 321
  it 227  ar 203  al 61  jap 22  ior 16  heb 6
2026-05-11 00:06:40 -03:00
data v2: refined morpheme→etymology links via second-pass cross-lookup 2026-05-11 00:06:40 -03:00
schema init: snapshot of 27,491 etymologies + 41,650 morphemes + 59,581 word_morphemes 2026-05-10 23:43:37 -03:00
README.md v2: refined morpheme→etymology links via second-pass cross-lookup 2026-05-11 00:06:40 -03:00

Etimologia — tabela etimológica e morfêmica para MASHA

Snapshot dos três bancos morfêmicos derivados do Houaiss para o projeto MASHA:

arquivo linhas descrição
data/etymologies.jsonl 27 585 uma etimologia por linha (idioma de origem, forma, glossa)
data/morphemes.jsonl 41 650 morfemas (PREFIX / ROOT / SUFFIX) com etimologia associada
data/word_morphemes.jsonl 59 581 mapeamento palavra → (prefixos, raiz, sufixos)

Versão 2: o pipeline refine_morpheme_etymologies.py foi adicionado para resolver cada morfema à sua PRÓPRIA etimologia (e não à do verbete pai). Cobertura de etimologia real subiu de 1.5 % → 22.7 % (sufixos produtivos agora corretamente atribuídos: -mento ← lat. -mentu, -ismo ← gr. -ismós, -ista ← gr. -istés, -or ← lat. -óris, -dor ← lat. -tor, etc.).

Distribuição etimológica (post-refinement)

Idioma morfemas Idioma morfemas
lat 6 479 tupi 321
gr 1 019 it 227
fr 792 ar 203
esp 333 al 61
ing 321 jap 22
(unk) 31 850 outros 22

(Os ~31 K morfemas unk são entries para os quais o Houaiss não fornece etimologia em formato parseável — geralmente compostos morfológicos ou derivações regressivas que não se rastreiam a uma língua de origem única.)

Formato

Cada arquivo é JSONL — um registro JSON por linha, UTF-8.

etymologies.jsonl

{"id": 42, "source_language": "lat", "source_form": "avis,is",
 "source_gloss": "ave", "attested_year": 1909,
 "derivation_chain": []}

morphemes.jsonl

{"id": 17, "form": "avi", "type": "ROOT", "etymology_id": 42,
 "semantic_role": "", "productivity": 0.0, "meaning_gloss": ""}

word_morphemes.jsonl

{"word": "aviador", "prefix_ids": [], "root_id": 17,
 "suffix_ids": [203], "confidence": 0.95}

Sufixos PT-BR mais produtivos (com etimologia real após refinement)

Sufixo n Etimologia
-ico 3554 do lat.vulg. -icu/-iccu (diminutivos)
-ar 2960 do lat. -aris,e (forma adjetivos)
-ense 2875 gentílicos
-or 2030 do lat. -óris,e (forma agente)
-ção 1579 do lat. -tio,-ónis (ação/processo)
-mento 1518 do lat.vulg. -mentu (subst. deverbal)
-eiro 1430 dos suf. lat. -arìus,a,um
-ista 1289 do suf. gr. -istés (praticante)
-ismo 1107 do gr. -ismós,oû
-al 945 do suf. lat. -ális,-ále

Como recarregar

# A partir de uma instância PG vazia chamada 'masha':
psql -d masha -f schema/schema.sql
# Load JSONL (psycopg or COPY)

Provenance

Geração em 2 passes:

  1. MASHA/scripts/extract_dictionary.py → 126 K verbetes em lexicon_entries
  2. MASHA/scripts/build_morpheme_table.py → primeira derivação morfêmica
  3. MASHA/scripts/refine_morpheme_etymologies.py → resolução de etimologia por morfema (cross-lookup contra lexicon_entries.headword)

Fonte primária: Antônio Houaiss et al., Dicionário Houaiss da Língua Portuguesa (2001).

License

CHARRUA v1.2 (estrutura e código de geração). Dados etimológicos: pesquisa científica baseada em obra de referência publicada.