Modelo vetorial em sistemas de recuperação da informação

Origem: Wikipédia, a enciclopédia livre.

O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos:

Termos são ocorrências únicas nos documentos. A relevância dos termos é destacada assinalando pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano. Para determinar se um documento está próximo de uma consulta, compara-se o vetor do documento com o vetor da consulta. Ao invés de calcular o ângulo, calcula-se o cosseno, definido pela fórmula [Salton (1988)]:

em que é o Produto escalar (intersecção) dos vetores do documento d e da consulta q, é a norma do vetor d, e é a norma do vetor q. A norma de um vetor é calculada como:

Usando o cosseno, a similaridade entre um documento dj e uma consulta q pode ser calculada como:

Os pesos quantificam a relevância de cada termo para as consultas () e para os documentos () no espaço vetorial. Para o cálculo dos pesos e , utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando a frequência de um termo num documento . Se uma coleção possui documentos e é a quantidade de documentos que possuem o termo , então o inverso da frequência do termo na coleção, ou (inverse document frequency) é dado por:

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: , ou seja, é o produto da frequência do termo <math>t<\math> no documento <math>d<\math> pelo inverso da frequência do termo na coleção. Assim termos muito comuns terão um idf baixo o que reduz o peso do termo e o torna menos significativo.

As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

Entre as limitações do modelo, vale citar que ele considera os termos de um documento como um saco-de-palavras, ou seja, a posição do termo no documento não é levado em consideração. Além disso, a semântica dos termos não é considerada nem questões de sinonímia, ambiguidade. termos compostos, etc.


Ícone de esboço Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.