Coverage of real (non-UNKNOWN) etymology per morpheme rose from 1.5% to 22.7%. The most productive PT-BR suffixes now point at their own correct etymologies: -mento ← do lat.vulg. -mentu -ismo ← do gr. -ismós -ista ← do suf. gr. -istés -or ← do lat. -óris -dor ← do lat. -tor -ada ← do lat. -átu(s),-áta -ado ← do lat. -átu,-áta -al ← do suf. lat. -ális,-ále -ar ← do lat. -aris,e -ico ← do lat.vulg. -icu/-iccu -oso ← de orig. lat., -ósus,a,um -ês ← do lat.vulg. -ense -tor ← do lat. -tor -eiro ← dos suf. lat. -arìus,a,um The refinement logic (in MASHA/scripts/refine_morpheme_etymologies.py) tries each morpheme against its likely lexicon headwords (form, -form, form-) and parses 'do lat. X' / 'pelo lat. Y' patterns out of either sources_variants or the definition itself. Coverage by language (morphemes pointing at real etym): lat 6479 gr 1019 fr 792 esp 333 tupi 321 ing 321 it 227 ar 203 al 61 jap 22 ior 16 heb 6 |
||
|---|---|---|
| data | ||
| schema | ||
| README.md | ||
Etimologia — tabela etimológica e morfêmica para MASHA
Snapshot dos três bancos morfêmicos derivados do Houaiss para o projeto MASHA:
| arquivo | linhas | descrição |
|---|---|---|
data/etymologies.jsonl |
27 585 | uma etimologia por linha (idioma de origem, forma, glossa) |
data/morphemes.jsonl |
41 650 | morfemas (PREFIX / ROOT / SUFFIX) com etimologia associada |
data/word_morphemes.jsonl |
59 581 | mapeamento palavra → (prefixos, raiz, sufixos) |
Versão 2: o pipeline refine_morpheme_etymologies.py foi adicionado para
resolver cada morfema à sua PRÓPRIA etimologia (e não à do verbete pai).
Cobertura de etimologia real subiu de 1.5 % → 22.7 % (sufixos produtivos
agora corretamente atribuídos: -mento ← lat. -mentu, -ismo ← gr. -ismós,
-ista ← gr. -istés, -or ← lat. -óris, -dor ← lat. -tor, etc.).
Distribuição etimológica (post-refinement)
| Idioma | morfemas | Idioma | morfemas |
|---|---|---|---|
| lat | 6 479 | tupi | 321 |
| gr | 1 019 | it | 227 |
| fr | 792 | ar | 203 |
| esp | 333 | al | 61 |
| ing | 321 | jap | 22 |
| (unk) | 31 850 | outros | 22 |
(Os ~31 K morfemas unk são entries para os quais o Houaiss não fornece
etimologia em formato parseável — geralmente compostos morfológicos ou
derivações regressivas que não se rastreiam a uma língua de origem única.)
Formato
Cada arquivo é JSONL — um registro JSON por linha, UTF-8.
etymologies.jsonl
{"id": 42, "source_language": "lat", "source_form": "avis,is",
"source_gloss": "ave", "attested_year": 1909,
"derivation_chain": []}
morphemes.jsonl
{"id": 17, "form": "avi", "type": "ROOT", "etymology_id": 42,
"semantic_role": "", "productivity": 0.0, "meaning_gloss": ""}
word_morphemes.jsonl
{"word": "aviador", "prefix_ids": [], "root_id": 17,
"suffix_ids": [203], "confidence": 0.95}
Sufixos PT-BR mais produtivos (com etimologia real após refinement)
| Sufixo | n | Etimologia |
|---|---|---|
| -ico | 3554 | do lat.vulg. -icu/-iccu (diminutivos) |
| -ar | 2960 | do lat. -aris,e (forma adjetivos) |
| -ense | 2875 | gentílicos |
| -or | 2030 | do lat. -óris,e (forma agente) |
| -ção | 1579 | do lat. -tio,-ónis (ação/processo) |
| -mento | 1518 | do lat.vulg. -mentu (subst. deverbal) |
| -eiro | 1430 | dos suf. lat. -arìus,a,um |
| -ista | 1289 | do suf. gr. -istés (praticante) |
| -ismo | 1107 | do gr. -ismós,oû |
| -al | 945 | do suf. lat. -ális,-ále |
Como recarregar
# A partir de uma instância PG vazia chamada 'masha':
psql -d masha -f schema/schema.sql
# Load JSONL (psycopg or COPY)
Provenance
Geração em 2 passes:
MASHA/scripts/extract_dictionary.py→ 126 K verbetes emlexicon_entriesMASHA/scripts/build_morpheme_table.py→ primeira derivação morfêmicaMASHA/scripts/refine_morpheme_etymologies.py→ resolução de etimologia por morfema (cross-lookup contralexicon_entries.headword)
Fonte primária: Antônio Houaiss et al., Dicionário Houaiss da Língua Portuguesa (2001).
License
CHARRUA v1.2 (estrutura e código de geração). Dados etimológicos: pesquisa científica baseada em obra de referência publicada.