Similaridade por cosseno

Origem: Wikipédia, a enciclopédia livre.

A similaridade por cosseno é uma medida da similaridade de entre dois vetores num espaço vetorial que avalia o valor do cosseno do ângulo compreendido entre eles.

Sua fórmula pode ser escrita como[1]:

A similaridade do cosseno fornece um valor no intervalo [-1,1], porém é comum ser usada em contextos onde todos os valores são positivos, fornecendo então um valor entre [0,1].

Uso da Similaridade do Cosseno[editar | editar código-fonte]

Essa medida é usada em várias áreas onde a magnitude dos vetores não é (tão) importante quanto sua direção, em especial em busca e recuperação de informação[1], para medir a semelhança entre uma consulta e m documento, e em mineração de textos[2], onde estabelece uma métrica de semelhança entre textos[3], sendo aplicável tanto em algoritmos de classificação como de agrupamento.

Quando usada como medida de avaliação da similaridade de textos, cada valor do vetor indica um peso para uma palavra ou conceito usado no texto, criando um espaço vetorial[4]. Nesse caso, como todos os vetores são positivos, a medida está no intervalo [0,1].

Isso tanto se aplica ao modelo vetorial como a outros modelos derivados, com na Indexação por Semântica Latente.

A similaridade por cosseno não deve ser considerada como uma métrica de distância pois não cumpre a desigualdade triangular.

Referências

  1. a b Baeza-Yates, R. (2011). Modern information retrieval : the concepts and technology behind search. Berthier Ribeiro-Neto Second edition ed. New York: Addison Wesley. OCLC 683591535 
  2. Žižka, Jan (2021). Text mining with machine learning : principles and techniques. František Dařena, Arnošt Svoboda. Boca Raton: [s.n.] OCLC 1259525971 
  3. P.-N. Tan, M. Steinbach & V. Kumar, "Introduction to Data Mining", Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.
  4. Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.

 

Este artigo é um esboço. Você pode ajudar a Wikipédia expandindo-o. Editor: considere marcar com um esboço mais específico.