CE-DOHS

Origem: Wikipédia, a enciclopédia livre.

Apresentação[editar | editar código-fonte]

O CE-DOHS (Corpus Eletrônico de Documentos Históricos do Sertão) apresenta textos escritos em língua portuguesa, por autores de diferentes etnias, nascidos no Brasil, entre 1586 e 1986. Adicionamente, um pequeno acervo de nascidos em Portugal, entre 1450 e 1850. Atualmente, há quase 50 acervos, que somam mais de 1 milhão de palavras (a meta é atingir 5 milhões de palavras), disponíveis na rede mundial de computadores, com diferentes formas acesso.Toda a base de textos resulta de pesquisas de prospecção e edição de fontes documentais – encontradas em dezenas de arquivos públicos e privados, nacionais e internacionais – e também de gravações de fala em diversas regiões da Bahia, realizadas, desde 1993, por pesquisadores e por estudantes bolsistas de Pós-Graduação e de Iniciação Científica do Departamento de Letras e Artes (DLA) da Universidade Estadual de Feira de Santana(UEFS), e também cedidas por outros projetos, por meio de parceria com outras instituições de Ensino Superior, em alguns casos mediante acordo de cooperação formal.

Logotipo[editar | editar código-fonte]

O logotipo CE-DOHS é a forma gráfica única, exclusiva e padronizada para veicular o sinal básico de identificação da plataforma do Corpus Eletrônico para a história do Português Brasileiro. Deve desempenhar as seguintes funções: identificar as mensagens visuais CE-DOHS, de forma imediata, unívoca e marcante; unificar e integrar as mensagens visuais CE-DOHS, consolidando sua identidade visual. O Logotipo foi criado, a pedido da Coordenação, pelo artista Juraci Dória, em 2010, tendo, como inspiração, os sertões baianos, área de abrangência do projeto.


Histórico[editar | editar código-fonte]

O projeto CE-DOHS faz parte do Núcleo de Estudos de Língua Portuguesa (NELP), desde 2012, do Departamento de Letras e Artes (DLA) da Universidade Estadual de Feira de Santana (UEFS).

O NELP trabalha com duas agendas: formação de banco de textos de língua portuguesa e estudo sócio-histórico e linguístico do português. O CE-DOHS destaca-se, oferecendo, por meio de parceria tecnológica com o projeto Corpus Histórico do Português Tycho Brahe, da Universidade Estadual de Campinas e que está sob a coordenação da professora doutora Charlotte Galves, um banco eletrônico de mais de um milhão de palavras, para estudo da história do português brasileiro, numa parceria com o Projeto Nacional para a História do Português Brasileiro (PHPB). Essa constituição de banco de dados, segundo Bacelar do Nascimento (2004, p. 1),

[...] favorece essencialmente uma Linguística descritiva, fortemente apoiada pelas novas tecnologias, e permite tomar como ponto de partida da descrição a análise de quantidade significativa de dados autênticos, à semelhança do que se faz noutros domínios científicos. O uso de corpora permite a realização de descrições lingüísticas de base empírica e promove, com isso, a discussão de questões teóricas solidamente fundamentadas.

Criado em 2012, com financiamento da Fundação de Amparo à Pesquisa do Estado da Bahia (FAPESB), o projeto CE-DOHS – organizado em duas fases: fase 1, que abrange documentos do século XVIII ao século XX, e fase 2, que abrange documentos dos séculos XVI e XVII – aproxima o campo filológico e o campo computacional, promovendo a edição, em linguagem XML, dos textos editados tradicionalmente, segundo critérios de edição semidiplomática, pelos pesquisadores do projeto Vozes do Sertão em Dados, criado em 2009, e por pesquisadores do CE-DOHS, que vêm sempre buscando diversificar o banco, com textos representativos das vertentes popular, sobretudo, e culta do português brasileiro.

Primeira fase[editar | editar código-fonte]

A primeira fase do projeto teve por objetivo compor um banco de textos de 1750 a 2000, representativos do período histórico do português brasileiro caracterizado pelo multilinguismo localizado; permite estudar a história do português brasileiro culto, semi-culto e popular nesse contexto. Há, como resultado dessa fase, vários trabalhos publicados pela equipe (cf. Lattes dos participantes da equipe). São esses os subprojetos da fase 1:

  • Elaboração de ferramentas computacionais para construção e uso do CE-DOHS.
  • Aplicação de técnicas de anotação linguística e web-semântica no CE-DOHS (parceria com a USP).
  • Acervos de cartas de português brasileiro culto, semiculto e popular (séculos XIX e XX).
  • Cartas escritas por mãos “cândidas”: o caso dos inábeis (século XX).
  • Corpora orais de português brasileiro culto e popular (século XX).

Segunda fase[editar | editar código-fonte]

A segunda fase, que começa agora a ser executada, em 2019, recua ainda mais no tempo, a uma época em que o multilinguismo no Brasil era generalizado (1500-1750)[1] . Tem por objetivo estudar a gestação do português brasileiro. Enfrenta essa fase a raridade das fontes: são raros os textos escritos por grupos nascidos no Brasil, sobretudo de índios e negros, etnias que não tiveram acesso à escola (as fontes para o estudo da história linguística das classes dominantes são mais generosas); o projeto, todavia, tem pequenos acervos desse período e bastante significativos, em breve disponibilizados na Plataforma.

Metodologia[editar | editar código-fonte]

A metodologia utilizada no controle de aspectos sócio-históricos é a Teoria da Variação Linguística[2], com aplicação para textos escritos, na chamada Linguística Histórica Sócio-Histórica [3]. Consideram-se as causas que apresentam impacto no processo de mudança do ponto de vista da Linguística Diacrônica, na visão da Gramática Gerativa Chomskiana [4], como o contato entre línguas, tanto línguas tipologicamente semelhantes quanto distintas, contato com línguas indígenas próximas e também diversas geneticamente[5] e com línguas da África subsaarina, sobretudo (7.000 línguas, entre 1676-1700, sobretudo da família Niger Congo [6]); o Brasil recebeu, até 1780, mais de um milhão e duzentos mil escravos, em processo de aquisição do português como L2, e sua transmissão para os descendentes como L1[7] .

Usa-se, para a edição em linguagem xml ou eletrônica, o eDictor, desenvolvido por Paixão de Sousa, Kepler e Faria (2010); trata-se de um editor de textos especialmente voltado ao trabalho filológico e à análise linguística automática.

Segundo Shepherd et al. (2012, p. 11),

A ideia de coligir coleções de textos naturais com o objetivo de os submeter à análise linguística remonta ao trabalho dos estruturalistas norte-americanos da década de 1950, tais como Harris (1951) e Fries (1952). Com o Brown Corpus (Francis e Kucera, 1954), surgiria o primeiro corpus eletrônico compilado para este fim. Embora até hoje este corpus seja largamente utilizado, na altura praticamente não existiam textos escritos em formato digital, os computadores eram máquinas enormes e caras, que ocupavam salas inteiras, e os programas informáticos demoravam horas e até dias a correr.

O banco CE-DOHS veio somar-se aos corpora eletrônicos constituídos fundamentalmente para análises linguísticas. Trata-se de um trabalho valioso essa formação de banco de dados nas plataformas digitais, para os estudos linguísticos de maneira geral, especialmente, no que diz respeito ao CE-DOHS – considerando as perguntas sócio-históricas que embasaram sua constituição –, para os estudos da formação do português brasileiro, na área da Linguística histórica.

Áreas de atuação[editar | editar código-fonte]

As principais áreas de atuação do CE-DOHS são:

Edições Digitais/xml e geração automática de distintas edições facsimiladas[editar | editar código-fonte]

As edições que compõem os corpora eletrônicos apresentam rigor filológico, capturadas integralmente na edição em linguagem XML, por meio do uso da ferramenta eDictor [8] . A ferramenta oferece versões fac-similadas, semidiplomáticas, modernizadas e técnicas (para entrada em parser), além de produtos derivados, tais como: o léxico de edições.

Corpus Anotado (parsed)[editar | editar código-fonte]

O CE-DOHS, em sua versão anotada, permite buscas linguísticas automáticas e confiáveis, com uso de tecnologias de projetos de ponta, como o Brahe Parsed Corpus of Historical Portuguese e o Penn-Helsinki Parsed Corpora. O acesso pode ser feito por meio de buscas automáticas, como o corpus search.

Edições semidiplomáticas[editar | editar código-fonte]

Edições filológicas de documentos datados a partir de 1500, escritos por pessoas nascidas em diferentes cidades brasileiras; são controlados quanto a sua origem, fidedignidade, contexto de produção, local e data de escrita, para quem foram escritos e o por quê.

Dos seus escreventes são apresentadas fichas biográficas com informações sobre naturalidade/nacionalidade, escolarização, tipo de aquisição da língua, local e data de nascimento, filiação e profissão. Controla-se também a etnia: portugueses de diferentes procedências sociais, indígenas, mamelucos, africanos, mestiços e pardos.

Essas informações podem ser capturadas em fichas e quadros-sínteses, bem como de forma automática, acessando os metadados, por meio da ferramenta E-corp. O banco possibilita a montagem de corpora temáticos, tendo em vista os interesses do pesquisador.

A agenda de edições filológicas tradicionais se desenvolve no âmbito do Projeto Para a História do Português Brasileiro (PHPB), em um trabalho conjunto, que engloba diversas universidades brasileiras. Corpus PHPB Nacional. O CE-DOHS atua, especificamente, na plataforma de Corpora Bahia (PHPB-BA), coordenada pelas professoras Zenaide de Oliveira Novais Carneiro e Mariana Fagundes de Oliveira Lacerda.

Desenvolvimento de ferramentas computacionais para corpora[editar | editar código-fonte]

A Plataforma investe em ferramentas computacionais. Cria ferramentas, como o E-corp, e colabora na implementação de ferramentas, como o eDictor. Por meio de parceria, utilizam-se ferramentas de projetos como o Tycho Brahe.

  1. (MATTOS E SILVA, 2004; LUCCHESI, 2017)
  2. WLH,2006 [1968]; LABOV, 2008 [1972]; 1982; 1994; 2001a; 2001b; WLH, 1986)
  3. (MATTOS E SILVA, 2008)
  4. (CHOMSKY, 1986)
  5. (ARYON, 1986; 1993)
  6. (CASTRO, 2002)
  7. (BAXTER, 1985; LUCCHESI & BAXTER,2009;LUCCHESI,2009)
  8. (PAIXÃO DE SOUSA, 2004; TRIPPEL E PAIXÃO DE SOUSA, 2006; PAIXÃO DE SOUSA, 2007; PAIXÃO DE SOUSA E KEPLER, 2007; PAIXÃO DE SOUSA, KLEPER E FARIA, 2010)