Método da silhueta: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado

Em linha

Revisão das 22h18min de 17 de novembro de 2023

Silhueta refere-se a um método de interpretação e validação da consistência dentro de agrupamentos de dados. A técnica fornece uma representação gráfica concisa de quão bem cada objeto foi classificado.^[1] Foi proposta pelo estatístico belga Peter Rousseeuw in 1987.

O valor da silhueta é uma medida de quão similar um objeto é ao seu próprio cluster (coesão) em comparação com outros clusters (separação). A silhueta varia de -1 a +1, onde um valor alto indica que o objeto está bem ajustado ao seu próprio cluster e mal ajustado aos clusters vizinhos. Se a maioria dos objetos tem um valor alto, então a configuração de agrupamento é apropriada. Se muitos pontos têm um valor baixo ou negativo, então a configuração de agrupamento pode ter muitos ou poucos clusters..

A silhueta pode ser calculada com qualquer métrica de distância, como a Distância euclidiana ou a Geometria do táxi.

Definição

A plot showing silhouette scores from three types of animals from the Zoo dataset as rendered by Orange data mining suite. At the bottom of the plot, silhouette identifies dolphin and porpoise as outliers in the group of mammals.

Assuma que os dados foram agrupados por qualquer técnica, como K-medoides or k-means, em $k$ clusters.

Para o ponto de dados $i\in C_{I}$ (ponto de dados $i$ no cluster $C_{I}$ ), seja

a(i)={\frac {1}{|C_{I}|-1}}\sum _{j\in C_{I},i\neq j}d(i,j)

a distância média entre $i$ e todos os outros pontos de dados no mesmo cluster, onde $|C_{I}|$ é o número de pontos pertencentes ao cluster $C_{I}$ , e $d(i,j)$ é a distância entre os pontos de dados $i$ e $j$ no cluster $C_{I}$ (dividimos por $|C_{I}|-1$ porque não incluímos a distância $d(i,i)$ na soma). Podemos interpretar $a(i)$ como uma medida de quão bem $i$ está atribuído ao seu cluster (quanto menor o valor, melhor a atribuição).

Definimos então a dissimilaridade média do ponto $i$ para algum cluster $C_{J}$ como a média da distância de $i$ para todos os pontos em $C_{J}$ (onde $C_{J}\neq C_{I}$ ).

Para cada ponto de dados $i\in C_{I}$ , agora definimos

b(i)=\min _{J\neq I}{\frac {1}{|C_{J}|}}\sum _{j\in C_{J}}d(i,j)

ara ser a menor média de distância de $i$ para todos os pontos em qualquer outro cluster (ou seja, em qualquer cluster do qual $i$ não é membro). O cluster com essa menor média de dissimilaridade é dito ser o "cluster vizinho" de $i$ porque é o próximo melhor ajuste para o ponto $i$ .

Agora definimos uma silhueta (valor) de um ponto de dados $i$

s(i)={\frac {b(i)-a(i)}{\max\{a(i),b(i)\}}}

, if

|C_{I}|>1

and

s(i)=0

, if

|C_{I}|=1

O que também pode ser escrito como:

s(i)={\begin{cases}1-a(i)/b(i),&{\mbox{if }}a(i)<b(i)\\0,&{\mbox{if }}a(i)=b(i)\\b(i)/a(i)-1,&{\mbox{if }}a(i)>b(i)\\\end{cases}}

Dado a definição acima fica claro que

-1\leq s(i)\leq 1

Note que $a(i)$ não é claramente definido para clusters com tamanho = 1, no qual caso definimo $s(i)=0$ . Esta escolha é arbitrária, mas neutra no sentido de que está no ponto médio dos limites, -1 and 1.^[1]

Para $s(i)$ ser próximo de 1, requeremos $a(i)\ll b(i)$ . Como $a(i)$ é uma medida de quão dissimilar $i$ é do seu próprio cluster, um valor pequeno significa que está bem ajustado. Além disso, um grande $b(i)$ implica que $i$ está mal ajustado ao seu cluster vizinho. Assim, um $s(i)$ próximo de 1 significa que os dados estão apropriadamente agrupados. Se $s(i)$ está próximo de -1, então pela mesma lógica vemos que $i$ wseria mais apropriado se estivesse agrupado em seu cluster vizinho. Um $s(i)$ próximo de zero significa que o dado está na fronteira de dois clusters naturais.

A média de $s(i)$ sobre todos os pontos de um cluster é uma medida de quão agrupados estão todos os pontos no cluster. Assim, a média de $s(i)$ sobre todos os dados do conjunto de dados inteiro é uma medida de quão apropriadamente os dados foram agrupados. Se houver muitos ou poucos clusters, como pode ocorrer quando uma escolha pobre de $k$ é usada no algoritmo de agrupamento (por exemplo,k-means), alguns dos clusters exibirão tipicamente silhuetas muito mais estreitas do que o resto. Assim, gráficos de silhueta e médias podem ser usados para determinar o número natural de clusters dentro de um conjunto de dados. Pode-se também aumentar a probabilidade de a silhueta ser maximizada no número correto de clusters reescalando os dados usando pesos de características que são específicos do cluster.^[2]

Kaufman e outros introduziram o termo coeficiente de silhueta para o valor máximo da média de $s(i)$ sobre todos os dados do conjunto de dados inteiro, ^[3] ou seja,

SC=\max _{k}{\tilde {s}}\left(k\right),

onde ${\tilde {s}}\left(k\right)$ representa a média $s(i)$ sobre todos os dados do conjunto de dados inteiro para um número específico de clusters $k$ .

Silhueta Simplificada e Silhueta de Medoides

Calcular o coeficiente de silhueta requer todas as distâncias entre pares ${\mathcal {O}}(N^{2})$ , tornando essa avaliação muito mais custosa do que o agrupamento com k-means. Para um agrupamento com centros $\mu _{C_{I}}$ para cada cluster $C_{I}$ , podemos usar a seguinte Silhueta Simplificada para cada ponto $i\in C_{I}$ em vez disso, que pode ser calculada usando apenas distâncias ${\mathcal {O}}(Nk)$ :

a'(i)=d(i,\mu _{C_{I}})

and

b'(i)=\min _{C_{J}\neq C_{I}}d(i,\mu _{C_{J}})

,

o que tem o benefício adicional de que $a'(i)$ está sempre definido, então definimos de acordo a silhueta simplificada e o coeficiente de silhueta simplificado ^[4]

s'(i)={\frac {b'(i)-a'(i)}{\max\{a'(i),b'(i)\}}}

SC'=\max _{k}{\frac {1}{N}}\sum _{i}s'\left(i\right)

.

Se os centros dos clusters são medoides (como no agrupamento k-medoids) em vez de médias aritméticas (como no agrupamento k-means), isso também é chamado de silhueta baseada em medoides ou silhueta de medoides.^[5] or medoid silhouette.^[6]

Se cada objeto é atribuído ao medoide mais próximo (como no agrupamento k-medoids), sabemos que $a'(i)\leq b'(i)$ , e portanto $s'(i)={\frac {b'(i)-a'(i)}{b'(i)}}=1-{\frac {a'(i)}{b'(i)}}$ .^[6]

Agrupamento por Silhueta

Em vez de usar a silhueta média para avaliar um agrupamento obtido de, por exemplo, k-medoids ou k-means, podemos tentar encontrar diretamente uma solução que maximize a Silhueta. Não temos uma solução de forma fechada para maximizar isso, mas geralmente será melhor atribuir pontos ao cluster mais próximo, como feito por esses métodos. Van der Laan e outros ^[5] propuseram adaptar o algoritmo padrão para k-medoides, PAM, para esse propósito e chamam esse algoritmo de PAMSIL:

Escolha medoides iniciais usando PAM.
Calcule a silhueta média dessa solução inicial.
Para cada par de um medoide m e um não medoide x
1. Troque $m$ e $x$
2. Calcule a silhueta média da solução resultante
3. Lembre-se da melhor troca
4. Desfaça a troca de $m$ e $x$ para a próxima iteração.
Realize a melhor troca e retorne ao passo 3, caso contrário, pare se nenhuma melhoria for encontrada.

O loop no passo 3 é executado para $O(Nk)$ pares, e envolve calcular a silhueta em $O(N 2)$ , portanto, esse algoritmo precisa de $O(N 3 ki)$ tempo, onde $i$ é o número de iterações.

Como essa é uma operação bastante cara, os autores propõem usar também a silhueta baseada em medoides, e chamam o algoritmo resultante de PAMMEDSIL.^[5] Ele precisa de $O(N 2 k 2 i)$ de tempo.

Batool e outros propõem um algoritmo semelhante sob o nome OSil, e propõem uma estratégia de amostragem semelhante à CLARA para conjuntos de dados maiores, que resolve o problema apenas para uma subamostra.^[7]

Adotando melhorias recentes no algoritmo PAM, o FastMSC reduz o tempo de execução usando a silhueta de medoides para apenas $O(N 2 i)$ .^[6]

References

↑ ^a ^b Peter J. Rousseeuw (1987). «Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis». Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7
↑ R.C. de Amorim, C. Hennig (2015). «Recovering the number of clusters in data sets with noise features using feature rescaling factors». Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039
↑ Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. ISBN 9780471878766. doi:10.1002/9780470316801
↑ Hruschka, E.R.; de Castro, L.N.; Campello, R.J.G.B. (2004). Evolutionary Algorithms for Clustering Gene-Expression Data. Fourth IEEE International Conference on Data Mining (ICDM'04). IEEE. pp. 403–406. doi:10.1109/ICDM.2004.10073
↑ ^a ^b ^c Van der Laan, Mark; Pollard, Katherine; Bryan, Jennifer (2003). «A new partitioning around medoids algorithm». Journal of Statistical Computation and Simulation (em inglês). 73 (8): 575–584. ISSN 0094-9655. doi:10.1080/0094965031000136012
↑ ^a ^b ^c Lenssen, Lars; Schubert, Erich (2022). Clustering by Direct Optimization of the Medoid Silhouette. International Conference on Similarity Search and Applications (em inglês). pp. 190–204. arXiv:2209.12553. doi:10.1007/978-3-031-17849-8_15. Consultado em 20 de outubro de 2022
↑ Batool, Fatima; Hennig, Christian (2021). «Clustering with the Average Silhouette Width». Computational Statistics & Data Analysis (em inglês). 158. 107190 páginas. arXiv:1910.11339. doi:10.1016/j.csda.2021.107190

Predefinição:Machine learning evaluation metrics

[Rousseeuw_1987-1] Peter J. Rousseeuw (1987). «Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis». Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7

[2] R.C. de Amorim, C. Hennig (2015). «Recovering the number of clusters in data sets with noise features using feature rescaling factors». Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039

[3] Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. ISBN 9780471878766. doi:10.1002/9780470316801

[4] Hruschka, E.R.; de Castro, L.N.; Campello, R.J.G.B. (2004). Evolutionary Algorithms for Clustering Gene-Expression Data. Fourth IEEE International Conference on Data Mining (ICDM'04). IEEE. pp. 403–406. doi:10.1109/ICDM.2004.10073

[:1-5] Van der Laan, Mark; Pollard, Katherine; Bryan, Jennifer (2003). «A new partitioning around medoids algorithm». Journal of Statistical Computation and Simulation (em inglês). 73 (8): 575–584. ISSN 0094-9655. doi:10.1080/0094965031000136012

[:0-6] Lenssen, Lars; Schubert, Erich (2022). Clustering by Direct Optimization of the Medoid Silhouette. International Conference on Similarity Search and Applications (em inglês). pp. 190–204. arXiv:2209.12553. doi:10.1007/978-3-031-17849-8_15. Consultado em 20 de outubro de 2022

[7] Batool, Fatima; Hennig, Christian (2021). «Clustering with the Average Silhouette Width». Computational Statistics & Data Analysis (em inglês). 158. 107190 páginas. arXiv:1910.11339. doi:10.1016/j.csda.2021.107190

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Revisão das 22h18min de 17 de novembro de 2023

Definição

Silhueta Simplificada e Silhueta de Medoides

Agrupamento por Silhueta

See also

References