Recuperação de informação

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
NoFonti.svg
Este artigo ou se(c)ção cita uma ou mais fontes fiáveis e independentes, mas ela(s) não cobre(m) todo o texto (desde dezembro de 2013).
Por favor, melhore este artigo providenciando mais fontes fiáveis e independentes e inserindo-as em notas de rodapé ou no corpo do texto, conforme o livro de estilo.
Encontre fontes: Googlenotícias, livros, acadêmicoScirusBing. Veja como referenciar e citar as fontes.
Portal A Wikipédia possui o portal:

Recuperação de Informação (RI) é uma área da Informática que lida com o armazenamento de documentos e a recuperação automática de informação associada a eles. É uma ciência de pesquisa sobre busca por informações em documentos, busca pelos documentos propriamente ditos, busca por metadados que descrevam documentos e busca em banco de dados, sejam eles relacionais e isolados ou banco de dados interligados em rede de hipermídia, tais como a World Wide Web. A mídia pode estar disponível sob forma de textos, de sons, de imagens ou de dados. Há, entretanto, muita confusão entre os termos e conceitos "recuperação de dados", "recuperação de documentos", "recuperação de informações" e "recuperação de textos". Na verdade, cada um destes é uma área especial que possui seu próprio corpo de conhecimento e literatura, teoria, praxis e tecnologias.

Histórico acadêmico[editar | editar código-fonte]

O termo foi criado por Calvin Mooers entre 1948 e 1950, e o campo de pesquisa é interdisciplinar, baseado em muitas áreas. Por sua abrangência ele não é muito bem compreendido, sendo abordado tipicamente sob uma ou outra perspectiva. Ele está posicionado na junção de muitos campos já estabelecidos, tais como psicologia cognitiva, arquitetura da informação, projeto da informação, comportamento da informação humana, linguística, semiótica, ciência da informação, ciência da computação, biblioteconomia e estatística.

Sistemas (automatizados) de recuperação da informação foram originalmente usados para gerenciar a explosão da informação na literatura científica na segunda metade do século XX. Muitas universidades e bibliotecas públicas usam estes sistemas para prover acesso a livros, jornais, periódicos e outros documentos.

Em 1992 o Departamento de Defesa dos Estados Unidos, em conjunto com o Instituto Nacional de Padrões e Tecnologia (NIST), do mesmo país, patrocinou a Text Retrieval Conference (TREC, Conferência de Recuperação de Textos) como parte do programa TIPSTER. O objetivo disto foi observar a transformação da comunidade de recuperação de informações a partir do provimento de uma infraestrutura de suporte que era necessária para tal gigantesca avaliação das metodologias de recuperação de textos.

Objetivo[editar | editar código-fonte]

Os documentos são geralmente textos ou partes do texto de documentos e o principal objetivo de um sistema de RI é recuperar informação (contida nos documentos) que possa ser útil ou relevante para o usuário. Tal informação (de interesse do usuário) é normalmente chamada de necessidade de informação do usuário. Infelizmente, caracterizar a necessidade de informação do usuário não é uma tarefa simples. Considere, por um momento, a seguinte necessidade de informação de um usuário no contexto da World Wide Web (ou simplesmente Web):

"Encontre todos os documentos contendo informações sobre a doença Neoplasma Benigno de forma que: (1) O paciente com a doença possua idade inferior a 50 anos e (2) seja diabético."

Palavras-chave[editar | editar código-fonte]

Claramente, a descrição completa acima não pode ser usada para solicitar uma informação através das interfaces do utilizador das máquinas de busca na Web. Para obter documentos de seu interesse, o usuário deverá traduzir uma necessidade de informação em uma consulta. Em sua forma mais comum, esta consulta é um conjunto de palavras-chave que são usadas para recuperar documentos em uma coleção. Na grande maioria das vezes, a formulação da consulta consiste em determinar quais são as palavras-chave que resumem a informação desejada pelo usuário. Uma inconveniência imediata dessa abordagem é que o uso de palavras-chave usualmente introduz uma diferença de semântica entre a intenção do usuário e o conjunto de documentos retornados. Além disso, essa diferença de semântica pode ser ampliada devido à dificuldade adicional em se lidar com textos em linguagem natural, que nem sempre são bem estruturados e podem ser semanticamente ambíguos.[1]


Resultados[editar | editar código-fonte]

Como resultado, a presença de documentos (textos) não relevantes entre os documentos retornados por uma consulta é praticamente certa. Nesse cenário, o principal objetivo dos sistemas de RI é recuperar o maior número possível de documentos relevantes e o menor número possível de documentos não relevantes.

Uma forma simples de obter um conjunto de respostas para uma consulta de usuário é determinar quais documentos em uma coleção contém as palavras da consulta. Todavia, isto não é o suficiente para satisfazer ao usuário em um sistema de RI.

A fim de facilitar o processo de recuperação de informação, os sistemas adotam um vocabulário padronizado, chamado Vocabulário Controlado, que pode utilizar uma linguagem natural ou artificial para representar o conteúdo dos documentos. A linguagem natural utiliza os mesmos termos usados pelo autor do documento, enquanto a linguagem artificial adota termos determinados pelos desenvolvedores de tal sistema.

Grau de relevância[editar | editar código-fonte]

A razão é que, o usuário está mais interessado em recuperar informação associada a um tópico descrito em uma consulta - uma tarefa freqüentemente denominada como o problema de RI. Para ser eficaz na tarefa de satisfazer a necessidade de informação do usuário, os sistemas de RI ordenam os documentos de uma coleção de acordo com o seu grau de relevância com a consulta do usuário. A noção de relevância é um conceito fundamental em recuperação de informação e é um componente chave para calcular a classificação (ordenação) de documentos em um conjunto de respostas a uma consulta do usuário.

Principais passos[editar | editar código-fonte]

  • Operação de Consulta - envolve a especificação de um conjunto de termos, associados ou não por operadores booleanos, que representa a necessidade de informação do usuário.
  • Operação de Indexação - envolve a criação de estruturas de dados associados aos documentos de uma coleção. Uma estrutura de dados bastante utilizada são as listas invertidas de termos/documentos.
  • Pesquisa e Ordenação - envolve o processo de recuperação de documentos de acordo com a consulta do usuário e sua ordenação através de um grau de similaridade entre o documento e a consulta.

Para calcular uma classificação, o sistema de RI usualmente adota um modelo para representar os documentos e a consulta do usuário. Muitos modelos ou abordagens para a computação da classificação tem sido propostos ao longo dos anos, sendo três modelos considerados clássicos:

Atualmente, vários outros modelos baseados em argumentos probabilísticos também foram propostos. Apesar desse desenvolvimento, ainda existe uma grande necessidade por novos arcabouços que permitam o aumento da qualidade das respostas a uma consulta do usuário.

Esquema global[editar | editar código-fonte]

Os modelos clássicos de recuperação de informação consideram que cada documento é representado por um conjunto de palavras-chave representativas, ou termos de indexação, que são consideradas como mutuamente independentes. Como um mesmo termo pode aparecer em diferentes documentos, é necessário distinguir a ocorrência de um termo k_i em um documento d_j da ocorrência deste mesmo termo em outro documento d_l. Para isso, a cada par termo-documento [k_i,d_j] associa-se um peso w_{ij}. Este peso deve ser utilizado para refletir a importância do termo k_i no documento d_j, como discutido adiante. Analogamente, a cada par termo-consulta [k_i,q] associa-se um peso w_i,q. Esses pesos quantificam a importância da palavra chave em relação as outras palavras chaves em um mesmo documento ou consulta e em relação a outras palavras chaves em outros documentos de uma coleção.

Exemplos de sistemas de recuperação da informação[editar | editar código-fonte]

  • Biblioteca virtual de saúde - Recupera a informação de diversos periodicos, e alguns são disponibilizados online, sendo que todos estes são voltados para a area de saúde.[2]
  • Domínio público - Reune livros que já podem ser disponibilizados online, ou seja, são de dominio público
  • Portal Capes - Disponibiliza artigos de periódicos de varias revistas nacionais e internacionais.

Ver também[editar | editar código-fonte]

Referências

  1. LOPES., Ilza Leite. Uso das linguagens controlada e natural em bases de dados: revisão da literatura. v. 31, n. 1, p. 41-52,. Brasília: [s.n.], 2002.
  2. Sistemas de recuperação de informação na área Médica (em Português). RI. Página visitada em 07 de Novembro de 2010.

Ligações externas[editar | editar código-fonte]

Ícone de esboço Este artigo sobre Informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.