Linguística de corpus

Linguística de Córpus (ou corpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística. (Berber Sardinha, 2004)

A linguística de córpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do computador, visto que os córpus são eletrônicos. Assim, a Linguística de Córpus contemporânea caracteriza-se pela coleta e análise de córpus eletrônicos com o auxílio de ferramentas eletrônicas.

O córpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar.

O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística. As ferramentas computacionais mais comuns são:

Programas para listar palavras - fazem a contagem das palavras em um córpus;
Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um córpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
Etiquetadores - fazem análises automáticas do córpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica ou discursiva.

A Linguística de Córpus faz uso de uma abordagem empirista, distinta da abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico.

De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem.

Na Linguística de Córpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Córpus são: colocação, coligação e prosódia semântica.

Para muitos pesquisadores, a Linguística de Córpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa linguística (Lexicografia, Ensino-aprendizagem, Tradução, etc,).

As principais áreas da Linguística de Córpus são:

Compilação de corpora;
Desenvolvimento de ferramentas para análise de corpora;
Descrição de linguagem;
Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.

Histórico[editar | editar código-fonte]

A Linguística de Córpus faz extenso uso de ferramentas computacionais e sua história se confunde com o desenvolvimento tecnológico, especificamente o computador. É possível identificar dois períodos importantes desde seu surgimento: antes do advento do computador e depois.

Antes do computador, já se fazia uso de córpus. Na Grécia Antiga foi criado o Corpus Helenístico. Na Antiguidade e Idade Média, produziam-se córpus de citações da bíblia. Durante boa parte do século XX, o uso de corpora para descrição da linguagem.

Os córpus dessas épocas eram coletados, armazenados e analisados manualmente. A dificuldade de se realizar estudos desse tipo era enorme. Mesmo assim, havia grande interesse na coleta e exploração de corpora. É importante ressaltar o papel dos estudos baseados em corpora realizados manualmente pela dificuldade e pelo pioneirismo na época.

O período crítico para os estudos baseados em córpus se deu com a ‘mudança’ de paradigma da linguística, com as ideias de Chomsky por volta de 1950. Houve uma preferência muito forte por estudos baseados em teorias racionalistas da linguagem. Os estudos empíricos receberam muitas críticas nessa época. As críticas eram relacionadas à necessidade de se coletar dados empíricos e o meio pelo qual se realizava a coleta e a análise dos dados. Um dos argumentos era a falta de confiabilidade em analisar manualmente grandes quantidades de dados linguísticos.

Embora o cenário fosse desfavorável, os estudos baseados em corpora não pararam. Muitos pesquisadores continuaram seus estudos por meio de córpus. Firth (1957) e os neo-firthianos defendiam a descrição da linguagem por meio de dados reais. O córpus SEU (Survey of English Usage), por exemplo, foi compilado e etiquetado manualmente em 1959. O SEU influenciou a criação de corpora eletrônicos e serviu para o desenvolvimento de etiquetadores computadorizados contemporâneos.

Com o advento do computador nos anos de 1960 e a queda de prestígio das pesquisas puramente racionalistas, o cenário começou a mudar. O lançamento do corpus Brown em 1964, com 1 milhão de palavras, é considerado como o fato propulsor do desenvolvimento da Linguística de Córpus. O corpus Brown é o pioneiro dos corpora eletrônicos por ter nascido em um período ainda desfavorável para os estudos empiristas e, também, pela dificuldade de compilação em computadores mainframe.

A popularização dos estudos com córpus ocorreu nos anos de 1980 com o aparecimento dos computadores pessoais. Com o desenvolvimento dos computadores, especificamente o aumento da capacidade de armazenar e processar dados, maiores números de córpus e ferramentas foram disponibilizadas para pesquisas, contribuindo para a consolidação da Linguística de Córpus.

Ao final dos anos 90, a Linguística de Córpus exerce grande influência em várias áreas da Linguística Aplicada (Ensino de Línguas, Tradução, Análise do Discurso, Lexicografia, etc), fornecendo subsídios teóricos e metodológicos que possibilitam o estudo de vários aspectos da linguagem.

O contexto internacional[editar | editar código-fonte]

Existem duas grandes linhas de pesquisa no contexto internacional: a linha norte-americana e a linha britânica.

Na linha norte-americana, os autores com mais destaque são Douglas Biber (Northern Arizona University), Randi Reppen (Northern Arizona University), Bethany Gray (Iowa State University) e Üte Romer (Georgia State Unibversity) e Eric Friginal (Georgia State Unibversity).

Na linha britânica, são autores proeminnetes Susan Hunston (University of Birmingham), Paul Baker (Lancaster University) e Tony McEnery (Lancaster University).

O contexto brasileiro[editar | editar código-fonte]

No Brasil, um dos expoentes da Linguística de Córpus é Tony Berber Sardinha, professor da Pontifícia Universidade Católica de São Paulo (PUC-SP), na qual atua no Programa de Pós-Graduação em Estudos Graduados.

Existem núcleos de pesquisa espalhados em outras instituições de ensino superior, como por exemplo, na Universidade Estadual de Goiás (UEG), Universidade Estadual do Pará (UEPA), Universidade Estadual Paulista (Unesp), Universidade Federal de Minas Gerais (UFMG), Universidade Federal de Uberlândia (UFU) e Universidade Federal do Rio Grande do Sul (UFRGS).

Na PUC-SP, o Grupo de Estudos de Linguística de Corpus (GELC) apresenta-se com influências tanto da linha norte-americana quanto da linha britânica de pesquisa. O GELC recebe pesquisadores docentes e discentes de diversas instituições de ensino superior. ^[1]

Referências

↑ BERBER SARDINHA, Tony (1 de março de 2014). [dgp.cnpq.br/dgp/espelhogrupo/9525439695348598 «Grupo de pesquisa»] Verifique valor |url= (ajuda). Diretório de grupos de pesquisa no Brasil. Consultado em 22 de agosto de 2022. [dgp.cnpq.br/dgp/espelhogrupo/9525439695348598 Cópia arquivada em 22 de agosto de 2022] Verifique valor |arquivourl= (ajuda)

Berber Sardinha, T. (2004). Lingüística de Corpus. São Paulo: Manole.

Biber, D.; Conrad, S.; Reppen, R. (1998). Corpus linguistics: investigating language structure and use. Cambridge, Cambridge University Presss.

Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Kennedy, G. D. (1998). An introduction to corpus linguistics. Nova York, Longman.

Ligações externas[editar | editar código-fonte]

[1] BERBER SARDINHA, Tony (1 de março de 2014). [dgp.cnpq.br/dgp/espelhogrupo/9525439695348598 «Grupo de pesquisa»] Verifique valor |url= (ajuda). Diretório de grupos de pesquisa no Brasil. Consultado em 22 de agosto de 2022. [dgp.cnpq.br/dgp/espelhogrupo/9525439695348598 Cópia arquivada em 22 de agosto de 2022] Verifique valor |arquivourl= (ajuda)

[1]