Linguística de corpus

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Linguística de corpus (ou córpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística.

A linguística de corpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do computador, visto que os corpora/córpora (plural de corpus) são eletrônicos. Assim, a linguística de corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas.

O corpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar.

O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística. As ferramentas computacionais mais comuns são:

  • Programas para listar palavras - fazem a contagem das palavras em um corpus;
  • Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;

A Linguística de Corpus faz uso de uma abordagem empirista, contrária à abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico.

De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem.

Na Linguística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Corpus são: colocação, coligação e prosódia semântica.

Para muitos pesquisadores, a Linguística de Corpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa linguística (Lexicografia, Ensino-aprendizagem, Tradução, etc,).

As principais áreas da Linguística de Corpus são:

  • Compilação de corpora;
  • Desenvolvimento de ferramentas para análise de corpora;
  • Descrição de linguagem;
  • Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.

Histórico[editar | editar código-fonte]

A Linguística de Corpus faz extenso uso de ferramentas computacionais e sua história se confunde com o desenvolvimento tecnológico, especificamente o computador. É possível identificar dois períodos importantes desde seu surgimento: antes do advento do computador e depois.

Antes do computador, já se fazia uso de corpus. Na Grécia Antiga foi criado o Corpus Helenístico. Na Antiguidade e Idade Média, produziam-se corpora de citações da bíblia. Durante boa parte do século XX, o uso de corpora para descrição da linguagem.

Os corpora dessas épocas eram coletados, armazenados e analisados manualmente. A dificuldade de se realizar estudos desse tipo era enorme. Mesmo assim, havia grande interesse na coleta e exploração de corpora. É importante ressaltar o papel dos estudos baseados em corpora realizados manualmente pela dificuldade e pelo pioneirismo na época.

O período crítico para os estudos baseados em corpus se deu com a ‘mudança’ de paradigma da linguística, com as ideias de Chomsky por volta de 1950. Houve uma preferência muito forte por estudos baseados em teorias racionalistas da linguagem. Os estudos empíricos receberam muitas críticas nessa época. As críticas eram relacionadas à necessidade de se coletar dados empíricos e o meio pelo qual se realizava a coleta e a análise dos dados. Um dos argumentos era a falta de confiabilidade em analisar manualmente grandes quantidades de dados linguísticos.

Embora o cenário fosse desfavorável, os estudos baseados em corpora não pararam. Muitos pesquisadores continuaram seus estudos por meio de corpora. Firth (1957) e os neo-firthianos defendiam a descrição da linguagem por meio de dados reais. O corpus SEU (Survey of English Usage), por exemplo, foi compilado e etiquetado manualmente em 1959. O SEU influenciou a criação de corpora eletrônicos e serviu para o desenvolvimento de etiquetadores computadorizados contemporâneos.

Com o advento do computador nos anos de 1960 e a queda de prestígio das pesquisas puramente racionalistas, o cenário começou a mudar. O lançamento do corpus Brown em 1964, com 1 milhão de palavras, é considerado como o fato propulsor do desenvolvimento da Linguística de Corpus. O corpus Brown é o pioneiro dos corpora eletrônicos por ter nascido em um período ainda desfavorável para os estudos empiristas e, também, pela dificuldade de compilação em computadores mainframe.

A popularização dos estudos com corpora ocorreu nos anos de 1980 com o aparecimento dos computadores pessoais. Com o desenvolvimento dos computadores, especificamente o aumento da capacidade de armazenar e processar dados, maiores números de corpora e ferramentas foram disponibilizadas para pesquisas, contribuindo para a consolidação da Lingüística de Corpus.

Ao final dos anos 90, a Linguística de Corpus exerce grande influência em várias áreas da Linguística Aplicada (Ensino de Línguas, Tradução, Análise do Discurso, Lexicografia, etc), fornecendo subsídios teóricos e metodológicos que possibilitam o estudo de vários aspectos da linguagem.

Referências

Berber Sardinha, T. (2004). Lingüística de Corpus. São Paulo: Manole.

Biber, D.; Conrad, S.; Reppen, R. (1998). Corpus linguistics: investigating language structure and use. Cambridge, Cambridge University Presss.

Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Kennedy, G. D. (1998). An introduction to corpus linguistics. Nova York, Longman.

Ligações externas[editar | editar código-fonte]