Houaiss Dicionário Eletrônico — plain-text + JSON conversion for MASHA (126,136 verbetes)
Find a file
Marcos 25d4e0b0c9 init: lexicon schema + reload instructions for the Houaiss dictionary
This repo does NOT redistribute Houaiss content (copyrighted). It provides the
PostgreSQL DDL, aggregate statistics, and a step-by-step reload pipeline so any
researcher with a legally obtained MOBI can rebuild the lexicon in ~70s.
2026-05-10 23:44:23 -03:00
docs init: lexicon schema + reload instructions for the Houaiss dictionary 2026-05-10 23:44:23 -03:00
schema init: lexicon schema + reload instructions for the Houaiss dictionary 2026-05-10 23:44:23 -03:00
README.md init: lexicon schema + reload instructions for the Houaiss dictionary 2026-05-10 23:44:23 -03:00

Dicionário — schema e pipeline do léxico Houaiss para MASHA

⚠️ Este repositório não contém o texto do Dicionário Houaiss. Distribui apenas:

  • o schema PostgreSQL da tabela lexicon_entries
  • agregados públicos (estatísticas, distribuição de campos)
  • instruções para reconstruir o léxico a partir de uma cópia legalmente obtida do MOBI

Layout

schema/lexicon_entries.sql      — DDL completo da tabela + indexes + tsvector PT-BR
docs/STATS.md                   — agregados (126 136 verbetes; cobertura por campo)
docs/HOWTO_LOAD.md              — como rebuildar localmente a partir do MOBI

O que está na tabela quando populada

Cada verbete do Houaiss vira uma linha com:

  • headword — cabeça da entrada (ex.: aviador, hemodiálise)
  • grammatical_class_code/abbrev/full — código Houaiss + abreviação + nome cheio (ex.: 90 | s.m. | substantivo masculino)
  • rubrica_abbrev/full — área temática (MED|medicina, ARQ|arquitetura)
  • attested_year — datação histórica (parsed de 1909, sXX, a1500, etc.)
  • definition — definição (heurística sobre os ramos do verbete)
  • sources_variants — string original do campo "Sinônimos/Variantes", que carrega a etimologia + composição morfêmica ("aviar + -dor", "fr. aviateur 'id.'")
  • body_raw — HTML original do <idx:entry> para re-parsing futuro
  • tsvtsvector Portuguese gerado de headword + definition, com índice GIN — busca full-text PT-BR pronta para uso

Pipeline upstream

MASHA/scripts/extract_dictionary.py implementa:

  1. Pre-flight (size, magic, sha256)
  2. Unpack MOBI → 91 MB HTML via mobi Python package
  3. Regex-stream de ~126 K <idx:entry> blocks
  4. Parse de cada bloco em campos estruturados
  5. Bulk insert (~1900 rows/s, ~67s total)

Pipeline downstream

pop/etimologia deriva 3 tabelas (etymologies, morphemes, word_morphemes) a partir do campo sources_variants deste léxico — esse é onde mora a decomposição morfêmica ("aviar + -dor", "hem(o)- + diálise") e as origens etimológicas (lat. avis, gr. graphein, tupi yba, etc.).

License

Schema + pipeline + agregados: CHARRUA v1.2. Conteúdo do dicionário Houaiss: propriedade dos autores e da Editora Objetiva.