Tesouro Medieval Informatizado da Língua Galega

O Tesouro Medieval Informatizado da Língua Galega (TMILG) é um corpus linguístico fruto de um projeto de investigação homônimo realizado no Instituto da Língua Galega (ILG), em convênio com a Secretaria Geral de Política Linguística da Junta de Galiza.

Este recurso permite buscas variadas na documentação galega medieval. As obras que oferece são muito variadas, e vão desde a lírica profana ou religiosa (Lírica trovadoresca galego-portuguesa, Cantigas de Santa Maria) até a prosa técnica (Arte de Trovar, Tratado de Albeitaria), passando pela prosa literária (Crónica Troiana, História Troiana, Livro de Tristão), a prosa histórica (Crónica Geral e Crónica de Castela, Geral Historia), a prosa religiosa (Miragres de Santiago, Crónica de Santa Maria de Iria) e a prosa jurídica (Flores de Dereito, fragmentos da Partidas, Ordenamento de Alcalá de Henares etc.). Lugar preferencial ocupa a prosa notarial, abrangendo copiosas coleções religiosas e civis, entre as quais se destacam especialmente as monásticas. Para aceder a este corpus é preciso registrar-se.

Histórico[editar | editar código-fonte]

A equipe dirigida por Xavier Varela é formada por investigadores, bolsistas e colaboradores da Universidade de Santiago de Compostela e da Universidade de Vigo. Desde 1993, e em coordenação com a equipe do TILG (Tesouro Informatizado da Língua Galega), vêm enriquecendo permanentemente as suas bases textuais. Nestes anos modificaram-se em várias ocasiões os procedimentos de etiquetagem e de lematização para refiná-los. Ao cabo da terceira revisão, incorporaram-se os textos ao recurso online. O projeto pôde realizar-se pelo esforço institucional do ILG com o patrocínio da Direção Geral de Política Linguística, através da Secretaria Geral de Política Linguística da Junta de Galiza.

Características[editar | editar código-fonte]

Em outubro de 2005 a base do TMILG contém a totalidade das obras não notariais publicadas da Galiza medieval (literárias, históricas, religiosas, jurídicas e técnicas). Das obras notariais já está incluída uma boa parte das publicadas (aproximadamente 85%) e estão bem avançados os trabalhos para a inclusão das restantes, prevista para meados de 2006. Em número, os documentos coletados são mais de 12.500. O arco cronológico vai do século XIII a princípios do XVI (com registros romances desde o VIII).

Os textos não foram modificados, exceto pela junção de palavras cortadas ao final da linha, pelo que o usuário não se exime de encontrar erros inevitáveis na leitura e edição de textos medievais. Respeitaram-se as grafias da edição impressa empregada como base (os diferentes tipos de "s", o signo tironiano ou o til de nasalidade sobre vogais e consoantes).

A etiquetagem dos textos foi adaptada a cada tipologia textual. Na versão para a Internet excluíram-se algumas etiquetas para fazê-la mais homogénea e manejável. Ficaram as seguintes: nome padronizado, indicações para a localização dos exemplos (volume, capítulo e página), referências cronológicas (ano ou faixa de anos, século e, no caso dos documentos notariais, também o mês), autoria, localização geográfica, tipologia textual (até três níveis hierárquicos), carácter original ou não do texto e língua original, se se trata duma tradução.

Estatísticas[editar | editar código-fonte]

Em número de palavras o TMILG passa na atualidade dos nove milhões, que dão ao redor de 170.000 formas gráficas distintas.
As dez mais frequentes são, pela ordem, d(e), e(t), a, que, o, en, por, el, os e se; constituem 29,62% de todo o corpus.
Os primeiros substantivos comuns são carta, parte, rrey, lugar e terra.
Os primeiros antropónimos são Fernando e Afonso.
Os primeiros topónimos galegos são Lugo, Orzellon, Oseira e Tuy.
Os forâneos são Castella, Troya, Toledo, Cordoua e Leõ.
As formas gráficas de ocorrência única rondam as 95.000.
Pelo número de sílabas as mais frequentes são as bissílabas, seguidas de perto pelas trissílabas, monossílabas, tetrassílabas e pentassílabas.

Consultas e utilidade[editar | editar código-fonte]

O corpus é de acesso livre, após prévio registro como usuário. O sistema de consulta permite buscar uma ou várias palavras, fazer buscas lógicas e utilizar caracteres-curinga. Podem-se refinar as buscas fazendo restrições cronológicas, por género, por subgénero ou por obra.

Este corpus foi fabricado para a elaboração de uma gramática histórica. Tem utilidade em todas os ramos linguísticos e literários da filologia, bem como em muitas outras disciplinas, como a história, a paleografia, a geografia, o direito e a política, a antropologia, as ciências da saúde, a náutica, a botânica, a zoologia etc.

Ligações externas[editar | editar código-fonte]

Página web do TMILG