Modelo vetorial em sistemas de recuperação da informação

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Ambox rewrite.svg
Esta página precisa ser reciclada de acordo com o livro de estilo (desde Fevereiro de 2008).
Sinta-se livre para editá-la para que esta possa atingir um nível de qualidade superior.
Searchtool.svg
Esta página ou secção foi marcada para revisão, devido a inconsistências e/ou dados de confiabilidade duvidosa. Se tem algum conhecimento sobre o tema, por favor, verifique e melhore a consistência e o rigor deste artigo. Considere utilizar {{revisão-sobre}} para associar este artigo com um WikiProjeto e colocar uma explicação mais detalhada na discussão.

O Modelo Vetorial em Sistemas de Recuperação da Informação, proposto inicialmente por Salton, reconhece que o uso de pesos binários (como feito no modelo Booleano) é muito limitado e propõe um arcabouço onde o casamento parcial entre uma consulta e um documento da coleção é possível.

Isso é feito através do assinalamento de pesos não binários aos termos de indexação dos documentos e consultas. Esses pesos associados aos termos são usados para calcular o grau de similaridade entre cada documento de uma coleção e a consulta de usuário. Dessa forma, o modelo vetorial leva em consideração documentos que casam com a consulta de forma parcial. Como resultado, o conjunto de respostas ordenadas é muito mais preciso do que o conjunto de respostas geradas pelo modelo booleano.

O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos. Termos são ocorrências únicas nos documentos. Os documentos devolvidos como resultado para uma consulta são representados similarmente, ou seja, o vetor resultado para uma consulta é montado através de um cálculo de similaridade. Aos termos das consultas e documentos são atribuídos pesos que especificam o tamanho e a direção de seu vetor de representação. Ao ângulo formado por estes vetores dá-se o nome de q. O termo cos (q) determina a proximidade da ocorrência. O cálculo da similaridade é baseado neste ângulo entre os vetores que representam o documento e a consulta, através da seguinte fórmula [Salton (1988)].

Os pesos quantificam a relevância de cada termo para as consultas (W_{iq}) e para os documentos (W_{id}) no espaço vetorial. Para o cálculo dos pesos W_{iq} e W_{id}, utiliza-se uma técnica que faz o balanceamento entre as características do documento, utilizando o conceito de freqüência de um termo num documento. Se uma coleção possui N documentos e n_{ti} é a quantidade de documentos que possuem o termo ti, então o inverso da freqüência do termo na coleção, ou idf (inverse documento frequency) é dado por:

Este valor é usado para calcular o peso, utilizando a seguinte fórmula: Wid = freq(ti,d) x idfi , ou seja, é o produto da freqüência do termo no documento pelo inverso da freqüência do termo na coleção. As principais vantagens do modelo vetorial são a sua simplicidade, a facilidade que ele provê de se computar similaridades com eficiência e o fato de que o modelo se comporta bem com coleções genéricas.

O modelo de espaço vetorial representa consultas e documentos como vetores em um espaço t-dimensional. Cada dimensão desse espaço é associado com um dos termos da coleção. Para isso, associa-se a cada termo ki um vetor ki. Esses vetores de termos são considerados como ortogonais, i.e, i \neq j \Longrightarrow \vec{k}_i \bullet \vec{k}_j = 0

Isso implica que se considera que os termos da coleção ocorrem de forma independente nos documentos e consultas. Além disso, o modelo de espaço vetorial assinala pesos positivos e não binários para termos nas consultas e documentos. Para calcular tais pesos, um método comum é tentar balancear a importância intra-documento dos termos(relativo a outras palavras em um mesmo documento) com a importância inter-documento dos termos (relativa a outras palavras em outros documentos). Isso pode ser definido como segue.

Seja N o número total de documentos em uma coleção, ni o número de documentos onde o termo ki ocorre, e freq{ij} a freqüência do termo ki no documento dj. O fator freqij quantifica a importância do termo ki no documento dj e é usualmente classificada como o fator de freqüência do termo (tf). O fator \log \frac{N}{n_i} quantifica a importância do termo k_i como um fator de discriminação para toda a coleção de documentos e é conhecido como o fator de {\em freqüência inversa do documento}~({\sf idf}).


Uma estratégia popular para calcular o peso termo-documento w_{ij} é

w_{ij} = freq_{ij} \times \log \frac{N}{n_{i}}

que é normalmente citada como esquema de peso {\sf tf-idf}.

Para o peso termo-consulta $w_{iq}$, podemos adotar

w_{iq} = freq_{iq} \times \log \frac{N}{n_{i}}

onde freq_{iq} é a freqüência do termo k_i no texto associado com a consulta q.

Ícone de esboço Este artigo sobre Informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.