Modelo vetorial em sistemas de recuperação da informação

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Ambox rewrite.svg
Esta página precisa ser reciclada de acordo com o livro de estilo (desde Fevereiro de 2008).
Sinta-se livre para editá-la para que esta possa atingir um nível de qualidade superior.
Searchtool.svg
Esta página foi marcada para revisão, devido a inconsistências e/ou dados de confiabilidade duvidosa. Se tem algum conhecimento sobre o tema, por favor, verifique e melhore a consistência e o rigor deste artigo.

O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

Isso é feito através do assinalamento de pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos. Termos são ocorrências únicas nos documentos. Os documentos devolvidos como resultado para uma consulta são representados similarmente, ou seja, o vetor resultado para uma consulta é montado através de um cálculo de similaridade. Aos termos das consultas e documentos são atribuídos pesos que especificam o tamanho e a direção de seu vetor de representação. Ao ângulo formado por estes vetores dá-se o nome de . O termo determina a proximidade da ocorrência. O cálculo da similaridade é baseado neste ângulo entre os vetores que representam o documento e a consulta, através da seguinte fórmula [Salton (1988)].

Os pesos quantificam a relevância de cada termo para as consultas () e para os documentos () no espaço vetorial. Para o cálculo dos pesos e , utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando o conceito de freqüência de um termo num documento. Se uma coleção possui documentos e é a quantidade de documentos que possuem o termo , então o inverso da freqüência do termo na coleção, ou idf (inverse documento frequency) é dado por:

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: Wid = freq(ti,d) x idfi , ou seja, é o produto da freqüência do termo no documento pelo inverso da freqüência do termo na coleção. As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

O modelo de espaço vetorial representa consultas e documentos como vetores em um espaço t-dimensional. Cada dimensão desse espaço é associado com um dos termos da coleção. Para isso, associa-se a cada termo ki um vetor ki. Esses vetores de termos são considerados como ortogonais, i.e,

Isso implica que se considera que os termos da coleção ocorrem de forma independente nos documentos e consultas. Além disso, o modelo de espaço vetorial assinala pesos positivos e não binários para termos nas consultas e documentos. Para calcular tais pesos, um método comum é tentar balancear a importância intra-documento dos termos(relativo a outras palavras em um mesmo documento) com a importância inter-documento dos termos (relativa a outras palavras em outros documentos). Isso pode ser definido como segue.

Seja N o número total de documentos em uma coleção, ni o número de documentos onde o termo ki ocorre, e freq{ij} a freqüência do termo ki no documento dj. O fator freqij quantifica a importância do termo ki no documento dj e é usualmente classificada como o fator de freqüência do termo (tf). O fator quantifica a importância do termo como um fator de discriminação para toda a coleção de documentos e é conhecido como o fator de {\em freqüência inversa do documento}~({\sf idf}).


Uma estratégia popular para calcular o peso termo-documento é

que é normalmente citada como esquema de peso {\sf tf-idf}.

Para o peso termo-consulta $w_{iq}$, podemos adotar

onde é a freqüência do termo no texto associado com a consulta .

Ícone de esboço Este artigo sobre Informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.