Houaiss Dicionário Eletrônico — plain-text + JSON conversion for MASHA (126,136 verbetes)
This repo does NOT redistribute Houaiss content (copyrighted). It provides the PostgreSQL DDL, aggregate statistics, and a step-by-step reload pipeline so any researcher with a legally obtained MOBI can rebuild the lexicon in ~70s. |
||
|---|---|---|
| docs | ||
| schema | ||
| README.md | ||
Dicionário — schema e pipeline do léxico Houaiss para MASHA
⚠️ Este repositório não contém o texto do Dicionário Houaiss. Distribui apenas:
- o schema PostgreSQL da tabela
lexicon_entries- agregados públicos (estatísticas, distribuição de campos)
- instruções para reconstruir o léxico a partir de uma cópia legalmente obtida do MOBI
Layout
schema/lexicon_entries.sql — DDL completo da tabela + indexes + tsvector PT-BR
docs/STATS.md — agregados (126 136 verbetes; cobertura por campo)
docs/HOWTO_LOAD.md — como rebuildar localmente a partir do MOBI
O que está na tabela quando populada
Cada verbete do Houaiss vira uma linha com:
headword— cabeça da entrada (ex.:aviador,hemodiálise)grammatical_class_code/abbrev/full— código Houaiss + abreviação + nome cheio (ex.:90 | s.m. | substantivo masculino)rubrica_abbrev/full— área temática (MED|medicina,ARQ|arquitetura)attested_year— datação histórica (parsed de1909,sXX,a1500, etc.)definition— definição (heurística sobre os ramos do verbete)sources_variants— string original do campo "Sinônimos/Variantes", que carrega a etimologia + composição morfêmica ("aviar + -dor", "fr. aviateur 'id.'")body_raw— HTML original do<idx:entry>para re-parsing futurotsv—tsvectorPortuguese gerado deheadword + definition, com índice GIN — busca full-text PT-BR pronta para uso
Pipeline upstream
MASHA/scripts/extract_dictionary.py implementa:
- Pre-flight (size, magic, sha256)
- Unpack MOBI → 91 MB HTML via
mobiPython package - Regex-stream de ~126 K
<idx:entry>blocks - Parse de cada bloco em campos estruturados
- Bulk insert (~1900 rows/s, ~67s total)
Pipeline downstream
pop/etimologia deriva 3 tabelas
(etymologies, morphemes, word_morphemes) a partir do campo
sources_variants deste léxico — esse é onde mora a decomposição morfêmica
("aviar + -dor", "hem(o)- + diálise") e as origens etimológicas
(lat. avis, gr. graphein, tupi yba, etc.).
License
Schema + pipeline + agregados: CHARRUA v1.2. Conteúdo do dicionário Houaiss: propriedade dos autores e da Editora Objetiva.