Medidas de similaridade

Origem: Wikipédia, a enciclopédia livre.

Em estatística e campos relacionados, uma medida de similaridade ou função de similaridade ou métrica de similaridade é uma função de valoreal que quantifica a similaridade entre dois objetos. Embora não exista uma definição única de similaridade, geralmente tais medidas são, em certo sentido, o inverso das métricas de distância: elas assumem maiores valores para objetos semelhantes e zero ou um valor negativo para objetos muito diferentes. Embora, em termos mais amplos, uma função de similaridade também possa satisfazer axiomas métricos.

A similaridade por cosseno é uma medida de similaridade comumente usada para vetores de valor real, usada (entre outros campos) na recuperação de informações para pontuar a similaridade de documentos no modelo de espaço vetorial . No aprendizado de máquina, as funções comum do Kernel, como o Kernel RBF, podem ser vistas como métricas de similaridade.[1]

Existem diferentes tipos de medidas de similaridade para vários tipos de objetos, dependendo dos objetos que estão sendo comparados. Para cada tipo de objeto existem várias fórmulas para métricas de similaridade.[2]

Similaridade entre dois pontos de dados

Semelhança entre strings

Semelhança entre duas distribuições de probabilidade

Semelhança entre dois conjuntos

Uso em análise de agrupamentos[editar | editar código-fonte]

Clustering ou análise de agrupamentos é uma técnica de mineiração de dados usada para descobrir padrões em dados agrupando objetos semelhantes. A técnica envolve o particionamento de um conjunto de pontos de dados em grupos ou clusters com base em suas semelhanças. Um dos aspectos fundamentais do clustering é como medir a similaridade entre os pontos de dados.

As medidas de similaridade desempenham um papel crucial em muitas técnicas de agrupamento, pois são usadas para determinar o quão intimamente relacionados dois pontos de dados estão e se eles devem ser agrupados no mesmo cluster. A medida de similaridade pode assumir muitas formas diferentes, dependendo do tipo de dados que está sendo agrupado e do problema específico que está sendo resolvido.

Uma das medidas de similaridade mais comumente usadas é a distância euclidiana, que é usada em muitas técnicas de agrupamento, incluindo K-means e agrupamento hierárquico. A distância euclidiana é uma medida da distância em linha reta entre dois pontos em um espaço de alta dimensão. É calculado como a raiz quadrada da soma das diferenças quadradas entre as coordenadas correspondentes dos dois pontos. Por exemplo, se tivermos dois pontos de dados e , a distância euclidiana entre eles é

Fig: Mapa de calor da região HIST1, localizada no cromossomo 13 do camundongo nas seguintes coordenadas: [21,7 Mb, 24,1 Mb].

Outra medida de similaridade comumente usada é o Índice de Jaccard ou similaridade de Jaccard, que é usado em técnicas de agrupamento que trabalham com dados binários, como dados de presença/ausência [3] ou dados booleanos; A similaridade Jaccard é particularmente útil para técnicas de agrupamento que trabalham com dados de texto, onde pode ser usada para identificar agrupamentos de documentos semelhantes com base em seus recursos compartilhados ou palavras-chave [4]. É calculado como o tamanho da interseção de dois conjuntos dividido pelo tamanho da união dos dois conjuntos.

As semelhanças entre 162 perfis nucleares relevantes são testadas usando o índice de Jaccard (veja a figura com o mapa de calor). A similaridade de Jaccard do perfil nuclear varia de 0 a 1, com 0 indicando nenhuma similaridade entre os dois conjuntos e 1 indicando similaridade perfeita com o objetivo de agrupar o perfil nuclear mais similar.

A distância de Manhattan, também conhecida como geometria do táxi, é uma medida de similaridade comumente usada em técnicas de agrupamento que trabalham com dados contínuos. É uma medida da distância entre dois pontos em um espaço de alta dimensão, calculada como a soma das diferenças absolutas entre as coordenadas correspondentes dos dois pontos .

Em agrupamento espectral, uma medida de similaridade ou afinidade é usada para transformar dados para superar dificuldades relacionadas à falta de convexidade na forma da distribuição de dados.[5] A medida dá origem a uma matriz de similaridade de tamanho para um conjunto de n pontos, onde a entrada na matriz pode ser simplesmente a (recíproca da) distância euclidiana entre e , ou pode ser uma medida de distância mais complexa, como a similaridade Gaussiana .[5] Modificar ainda mais esse resultado com técnicas de análise de rede também é comum.[6]

A escolha da medida de similaridade depende do tipo de dados que está sendo agrupado e do problema específico que está sendo resolvido. Por exemplo, trabalhando com dados contínuos, como dados de expressão gênomica, a distância euclidiana ou a similaridade de cosseno podem ser apropriadas. Já com dados binários como a presença de um loci genômico em um perfil nuclear, o índice de Jaccard pode ser mais apropriado. Por fim, trabalhando com dados organizados em uma estrutura de grade, como dados de processamento de imagem ou sinal, a distância de Manhattan é particularmente útil para o agrupamento.

Uso em sistemas de recomendação[editar | editar código-fonte]

Medidas de similaridade também são ferramentas para desenvolver sistemas de recomendação, observando a percepção do usuário e gosto em relação a vários itens. Em sistemas de recomendação, o método usa um cálculo de distância como Distância Euclidiana ou Similaridade por Cosseno para gerar um Matriz de Similaridade com valores que representam a similaridade de qualquer par de alvos. Então, analisando e comparando os valores na matriz, é possível combinar dois alvos com a preferência de um usuário ou vincular usuários com base em suas notas. Nesse sistema, é relevante observar o próprio valor e a distância absoluta entre dois valores.[7] A coleta desses dados pode indicar a probabilidade de uma marca para um usuário, bem como o quão próximas duas marcas são rejeitadas ou aceitas. É possível então recomendar a um usuário alvos com alta similaridade aos seus gostos.

Os sistemas de recomendação são observados em múltiplas plataformas de entretenimento online, em redes sociais e sites de streaming. A lógica para a construção desses sistemas é baseada em medidas de similaridade.[8]

Uso em alinhamento de sequências[editar | editar código-fonte]

As matrizes de similaridade são usadas no alinhamento de sequências . Pontuações mais altas são dadas para características mais semelhantes e pontuações mais baixas ou negativas para características diferentes.

As matrizes de similaridade de nucleotídeos são usadas para alinhar sequências de ácidos nucleicos. Como existem apenas quatro nucleotídeos comumente encontrados no DNA (Adenina (A), Citosina (C), Guanina (G) e Timina (T)), as matrizes de similaridade de nucleotídeos são muito mais simples do que as matrizes de similaridade de proteínas. Por exemplo, uma matriz simples atribuirá a bases idênticas uma pontuação de +1 e bases não idênticas uma pontuação de -1. Uma matriz mais complicada daria uma pontuação mais alta para transições (mudanças de uma pirimidina como C ou T para outra pirimidina, ou de uma purina como A ou G para outra purina) do que para transversões (de uma pirimidina para uma purina ou vice-versa). A proporção de correspondência/incompatibilidade da matriz define a distância evolutiva alvo.[9][10] A matriz de DNA +1/-3 usada pelo BLASTN é mais adequada para encontrar correspondências entre sequências que são 99% idênticas; uma matriz +1/−1 (ou +4/−4) é muito mais adequada para sequências com cerca de 70% de similaridade. Matrizes para sequências de menor similaridade requerem alinhamentos de sequência mais longos.

As matrizes de semelhança de aminoácidos são mais complicadas, porque existem 20 aminoácidos codificados pelo código genético e, portanto, um número maior de substituições possíveis. Portanto, a matriz de similaridade para aminoácidos contém 400 entradas (embora geralmente seja simétrica). A primeira abordagem marcou todas as mudanças de aminoácidos igualmente. Um refinamento posterior foi determinar as semelhanças de aminoácidos com base em quantas mudanças de base foram necessárias para alterar um códon para codificar aquele aminoácido. Este modelo é melhor, mas não leva em conta a pressão seletiva das mudanças de aminoácidos. Modelos melhores levaram em consideração as propriedades químicas dos aminoácidos.

Uma abordagem possível é gerar empiricamente as matrizes de similaridade. O método Dayhoff usou árvores filogenéticas e sequências retiradas de espécies da árvore. Esta abordagem deu origem à série de matrizes PAM. As matrizes PAM são rotuladas com base em quantas alterações de nucleotídeos ocorreram, por 100 aminoácidos. Embora as matrizes PAM se beneficiem de ter um modelo evolutivo bem compreendido, elas são mais úteis em distâncias evolutivas curtas (PAM10–PAM120). Em longas distâncias evolutivas, por exemplo PAM250 ou 20% de identidade, foi demonstrado que as matrizes BLOSUM são muito mais eficazes.

As séries BLOSUM foram geradas comparando um número de sequências divergentes. A série BLOSUM é rotulada com base em quanta entropia permanece inalterada entre todas as sequências, portanto, um número BLOSUM mais baixo corresponde a um número PAM mais alto.

Referências

  1. Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). «A primer on kernel methods». Kernel Methods in Computational Biology. [S.l.: s.n.] 
  2. https://iq.opengenus.org/similarity-measurements/ "Different Types of Similarity measurements"
  3. Chung, Neo Christopher; Miasojedow, BłaŻej; Startek, Michał; Gambin, Anna (2019). «Jaccard/Tanimoto similarity test and estimation methods for biological presence-absence data». BMC Bioinformatics (em inglês). 20 (S15). 644 páginas. ISSN 1471-2105. doi:10.1186/s12859-019-3118-5 
  4. International MultiConference of Engineers and Computer Scientists : IMECS 2013 : 13-15 March, 2013, the Royal Garden Hotel, Kowloon, Hong Kong. Hong Kong: Newswood Ltd. 2013. ISBN 978-988-19251-8-3. OCLC 842831996 
  5. a b Ng, A.Y.; Jordan, M.I.; Weiss, Y. (2001), «On Spectral Clustering: Analysis and an Algorithm», MIT Press, Advances in Neural Information Processing Systems, 14: 849–856 
  6. Li, Xin-Ye; Guo, Li-Jie (2012), «Constructing affinity matrix in spectral clustering based on neighbor propagation», Neurocomputing, 97: 125–130, doi:10.1016/j.neucom.2012.06.023 
  7. Bondarenko, Kirill (2019), Similarity metrics in recommender systems, consultado em 25 de abril de 2023 
  8. Javed, Mahnoor (2020), «Using Cosine Similarity to Build a Movie Recommendation System», Towards Data Science, consultado em 25 de abril de 2023 
  9. States, D; Gish, W; Altschul, S (1991). «Improved sensitivity of nucleic acid database searches using application-specific scoring matrices». Methods: A Companion to Methods in Enzymology. 3 (1). 66 páginas. CiteSeerX 10.1.1.114.8183Acessível livremente. doi:10.1016/S1046-2023(05)80165-3 
  10. Sean R. Eddy (2004). «Where did the BLOSUM62 alignment score matrix come from?» (PDF). Nature Biotechnology. 22 (8): 1035–6. PMID 15286655. doi:10.1038/nbt0804-1035. Cópia arquivada (PDF) em 3 de setembro de 2006 

Bibliografia[editar | editar código-fonte]