Corpus linguístico

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Question book.svg
Este artigo não cita fontes confiáveis e independentes. (desde maio de 2010). Por favor, adicione referências e insira-as corretamente no texto ou no rodapé. Conteúdo sem fontes poderá ser removido.
Encontre fontes: Google (notícias, livros e acadêmico)

Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise.

O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus.

Tipos de corpora[editar | editar código-fonte]

Corpus textual[editar | editar código-fonte]

Os primeiros corpora eram todos escritos. Por causa da disponibilidade e da sua heterogeneidade interna, os corpora escritos contêm tradicionalmente um número significativo de textos de jornais. O primeiro corpus escrito de grande dimensão para o Português Europeu é o CETEMPúblico, que contém todos os textos do jornal Público entre 1991 e 1998.

Corpora escritos podem ser etiquetados com informação edicional. A etiquetagem mais tradicional é a análise morfossintática, que indica para todas as palavras do corpus a sua classe gramatical (verbo, nome, adjetivo etc.)

Corpus oral[editar | editar código-fonte]

Para além dos corpora escritos existem também corpora orais, que contêm gravações de fala. Em geral, corpora orais são apenas utilizáveis quando transcritos: fornecidos de um ficheiro que contém a transcrição da fala. A transcrição mais comum é a transcrição ortográfica, mas pode também ser fonética, indicando a pronúncia das palavras do corpus em símbolos fonéticos.

Uma transcrição alinhada indica não só quais são as palavras do corpus, mas também contém para cada palavra uma indicação do índice temporal onde a palavra se encontra no corpus. As transcrições alinhadas mais conhecidas são os ficheiros com as legendas de filmes.

Ícone de esboço Este artigo sobre linguística ou um linguista é um esboço. Você pode ajudar a Wikipédia expandindo-o.