Geração Automática de Texto

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A Geração Automática de Texto (GAT) é um domínio do tratamento automático da linguagem, cujo objetivo é o de gerar uma forma linguística a partir de dados brutos não linguísticos, a partir de uma representação formal de um conteúdo.

Os primeiros sistemas (reais) de GAT datam do início dos anos 1970.


Descrição[editar | editar código-fonte]

O GAT se opoe à compreensão da linguagem natural, posto que esta última parte do texto para então apreeender os significados, enquanto que a meta do GAT é a de transformar o sentido em texto (um caminho inverso). Este se traduz por uma maior e grande variedade de inputs diferentes, em função do domínio de aplicação (enquanto que o texto permanece sempre um texto). Ademais, contrariamente à compreensão, a geração não se preocupa (ou o faz em menor medida) com a ambiguidade, dos sub-significados de um input mal formado (o que é a principal preocupação da compreensão).


O problema maior do GAT é a escolha, este embaraço da esoclha surge em diversos níveis:

  • Conteúdo: o que dizer?
  • Escolha lexical e sintática: como dizer?
  • Escolha retórica: quando dizer o que?
  • Apresentação textual ou oral: o dizer!

Estas escolhas estão longe de chegar ao óbvio para serem automáticas. Consideremos as duas orações seguintes:

  1. 1. You can only stay until 4.
  2. 2. You have to leave by 4.


As quais podemos traduzir aproximadamente para Você só pode ficar até as 4, e Você deve partir após as 4. Estas duas orações compartilham uma sinonímia semântica evidente, porém diferem por uma nuance comunicativa. A oração 1 encontra sua ênfase sobre o vocábulo ‘stay’ , e a oração 2 sobre o vocábulo ‘leave’ . A escolha lexical se fará em função do contexto: neste caso, por exemplo, se desejamos aplicar a atenção sobre a atividade em curso, ou dar preferência sobre a atividade a vir.

Por consequência, o GAT implica um grande número de conhecimentos prévios:


  • Conhecimento do domínio abrangido.
  • Conhecimento da linguagem específica deste domínio.
  • Conhecimento retórico estratégico.
  • Conhecimento da estruturação.
  • Conhecimento dos hábitos e constrangimentos para o usuário final.


A formulação ideal deve levar em conta uma série de fatores, tais como a gramática, a observação das ambiguidades, a coerência, os efeitos retóricos desejados. Porém, igualmente, deve considerar os constrangimentos sociais, discursivos, e pragmáticos. As teorias funcionais da linguagem são muito utilizadas na geração, por que elas tendem a integrar estes tipos de fatores.

Exemplo de arquitetura, em francês, para um sistema de geração automática de texto(traduit de Vander Linden, 2000)

A figura ao lado apresenta os contras num exemplo de arquitetura para um GAT. Os dois componentes principais dessa arquitetura são a planificação do discurso (discurso plano-linear) e o Realizador da Superfície (Surface Realizer). A planificação realiza a seleção do conteúdo com base no conhecimento e estrutura em função no objeto comunicativo.


Em seguida, o realizador de superfície gerará as frases, de acordo com as restrições lexicais e sintáticas, que lhe serão implementadas, e por conseguinte o plano especificado pelo planificador.

Abordagens Teóricas[editar | editar código-fonte]

As abordagens teóricas que tem, até hoje, maior influência no GAT são os seguintes:

  • SFG - Gramática Sistêmico-Funcional -
  • TAG - Árvore Gramatical Adjacente (La grammaire d'arbres adjoints).
  • MTM (meaning-text model) - modelo sem texto de Mel'čuk.

Referências[editar | editar código-fonte]

  • Bateman, J. (1997). Enabling technology for multilingual natural language generation: the KPML development environment. Journal of Natural Language Engineering, 3(1), 15-55.
  • Bateman, J. et M. Zock (2003). Natural Language Generation. The Oxford Handbook of Computational Linguistics. R. Mitkov (éd.), Oxford University Press, New York, 284-304.
  • Danlos (L.). (1985). Génération automatique de textes en langue naturelle. Paris : Masson.
  • Elhadad, M. (1992). Using Argumentation to Control Lexical Choice: A Functional Unification-Based Approach. Ph.D. thesis, Department of Computer Science, Columbia University.
  • McDonald, D. (1991). On the place of words in the generation process. Natural Language Generation in Artificial Intelligence and Computational Linguistics. C. Paris, W. Swartout et W. Mann (éds.), Kluwer, Dordrecht, 229-247.
  • Vander Linden, K. (2000). Natural Language Generation. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. D. Jurafsky et J.H. Martin, Prentice Hall, Upper Saddle River, New Jersey, 763-798.

Artigo Relacionado[editar | editar código-fonte]

Links Externos[editar | editar código-fonte]