Corpus do Português

Origem: Wikipédia, a enciclopédia livre.

O Corpus do Português é um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino.

O corpus compreende 45 milhões de palavras, extraídas de quase 57.000 textos em português dos séculos XIII ao XX. A interface permite que se pesquise por palavras exatas ou frases, caracteres-curinga, lemas e trechos de frases. Pode-se também procurar por associações de palavras dentro de uma distância de até 10 palavras (por exemplo, todos os substantivos próximos a "cadeia", todos os adjetivos próximos a "mulher" etc.).

O corpus também permite que se compare a frequência e a distribuição de palavras, frases e construções gramaticais entre textos, de três formas diferentes:

  • Por registro: comparações entre texto coloquial, ficcional, jornalístico e acadêmico
  • Por dialeto: comparação entre o Português europeu e o brasileiro
  • Por período histórico: comparação entre diferentes séculos (do século XIII ao XX).

Finalmente, pode-se também realizar pesquisas de natureza semântica no corpus.

Ligações externas[editar | editar código-fonte]