Similaridade estrutural

Origem: Wikipédia, a enciclopédia livre.

O índice de medida da similaridade estrutural (SSIM) é um método para prever a qualidade percebida de imagens digitais de televisão e cinema, bem como outros tipos de imagens e vídeos digitais. O SSIM é usado para medir a semelhança entre duas imagens. O índice SSIM é uma métrica de referência completa; em outras palavras, a medição ou previsão da qualidade de imagem é baseada em uma imagem inicial não comprimida ou livre de distorções como referência.

O SSIM é um modelo baseado na percepção que considera a degradação da imagem como uma "mudança percebida na informação estrutural", incorporando também fenômenos perceptuais importantes, incluindo termos de máscara de luminância e máscara de contraste. A diferença em relação a outras técnicas, como o MSE ou o PSNR, é que essas abordagens estimam "erros absolutos". A informação estrutural é a ideia de que os pixels têm fortes interdependências, especialmente quando estão espacialmente próximos. Essas dependências carregam informações importantes sobre a estrutura dos objetos na cena visual. A máscara de luminância é um fenômeno pelo qual as distorções da imagem tendem a ser menos visíveis em regiões brilhantes, enquanto a máscara de contraste é um fenômeno pelo qual as distorções se tornam menos visíveis onde há atividade significativa ou "textura" na imagem.

História[editar | editar código-fonte]

O precursor do SSIM era chamado de Índice de Qualidade Universal (UQI), ou Índice Wang–Bovik, que foi desenvolvido por Zhou Wang e Alan Bovik em 2001. Isso evoluiu, por meio de sua colaboração com Hamid Sheikh e Eero Simoncelli, para a versão atual do SSIM, que foi publicada em abril de 2004 na IEEE Transactions on Image Processing.[1] Além de definir o índice de qualidade SSIM, o artigo fornece um contexto geral para desenvolver e avaliar medidas de qualidade perceptual, incluindo conexões com a neurobiologia e percepção visual humana, e validação direta do índice em relação às avaliações de sujeitos humanos.

O modelo básico foi desenvolvido no Laboratório de Engenharia de Imagens e Vídeo (LIVE) na Universidade do Texas em Austin e foi posteriormente desenvolvido em conjunto com o Laboratório de Visão Computacional (LCV) na Universidade de Nova York. Variantes adicionais do modelo foram desenvolvidas no Laboratório de Computação Visual e de Imagens na Universidade de Waterloo e foram comercializadas. O SSIM posteriormente encontrou uma forte adoção na comunidade de processamento de imagem e nas indústrias de televisão e mídia social. O artigo SSIM de 2004 foi citado mais de 40.000 vezes, segundo o Google Scholar,[2] tornando-o um dos artigos mais citados nos campos de processamento de imagem e engenharia de vídeo. Foi reconhecido com o prêmio de Melhor Artigo da IEEE Signal Processing Society em 2009.[3] Também recebeu o Prêmio de Impacto Sustentado da IEEE Signal Processing Society em 2016, indicando um impacto incomumente alto por pelo menos 10 anos após sua publicação. Devido à sua alta adoção pela indústria de televisão, os autores do artigo original do SSIM receberam cada um um Prêmio Primetime Engineering Emmy em 2015 da Academia de Televisão.

Algoritmo[editar | editar código-fonte]

O índice SSIM é calculado em várias janelas de uma imagem. A medida entre duas janelas e de tamanho comum é:[4]

com:

  • a média de amostra de pixel de ;
  • a média de amostra de pixel de ;
  • a variância de ;
  • a variância de ;
  • a covariância de e ;
  • , duas variáveis para estabilizar a divisão com denominador fraco;
  • a faixa dinâmica dos valores de pixel (tipicamente
  • e por padrão.

Componentes da fórmula[editar | editar código-fonte]

A fórmula SSIM é baseada em três medidas de comparação entre as amostras de e : luminância (), contraste () e estrutura (). As funções individuais de comparação são:[4]

com, além das definições acima:

SSIM é então uma combinação ponderada dessas medidas comparativas:

Definindo os pesos como 1, a fórmula pode ser reduzida à forma mostrada acima.

Propriedades matemáticas[editar | editar código-fonte]

SSIM satisfaz a identidade dos indiscerníveis e propriedades de simetria, mas não a desigualdade triangular ou não-negatividade, e assim não é um espaço métrico. No entanto, sob certas condições, SSIM pode ser convertido em uma medida normalizada de erro quadrático médio, que é uma função de distância.[5] O quadrado de tal função não é convexo, mas é localmente convexo e quase convexa,[5] tornando SSIM um alvo viável para otimização.

Aplicação da fórmula[editar | editar código-fonte]

Para avaliar a qualidade da imagem, esta fórmula é geralmente aplicada apenas na luma (brilho), embora também possa ser aplicada em valores de cor (por exemplo, RGB) ou valores cromáticos (por exemplo, YCbCr). O índice SSIM resultante é um valor decimal entre -1 e 1, onde 1 indica perfeita semelhança, 0 indica nenhuma semelhança e -1 indica perfeita anticorrelação. Para uma imagem, é tipicamente calculado usando uma janela gaussiana deslizante de tamanho 11x11 ou uma janela de bloco de tamanho 8×8. A janela pode ser deslocada pixel a pixel na imagem para criar um mapa de qualidade SSIM da imagem. No caso da avaliação de qualidade de vídeo,[6] os autores propõem usar apenas um subgrupo das janelas possíveis para reduzir a complexidade do cálculo.

Variantes[editar | editar código-fonte]

SSIM multiescala[editar | editar código-fonte]

Uma forma mais avançada de SSIM, chamada SSIM Multiescala (MS-SSIM)[4] é conduzida ao longo de várias escalas por meio de um processo de múltiplos estágios de subamostragem, lembrando o processamento em múltiplas escalas no sistema de visão inicial. Foi demonstrado que ela se sai igualmente bem ou melhor que o SSIM em diferentes bancos de dados subjetivos de imagem e vídeo.[4][7][8]

SSIM multi-componente[editar | editar código-fonte]

SSIM de três componentes (3-SSIM) é uma forma de SSIM que leva em consideração o fato de que o olho humano pode perceber diferenças de maneira mais precisa em regiões texturizadas ou de borda do que em regiões suaves.[9] A métrica resultante é calculada como uma média ponderada de SSIM para três categorias de regiões: bordas, texturas e regiões suaves. O peso proposto é 0,5 para bordas, 0,25 para regiões texturizadas e suaves. Os autores mencionam que um peso de 1/0/0 (ignorando qualquer coisa além de distorções de borda) leva a resultados mais próximos das classificações subjetivas. Isso sugere que as regiões de borda desempenham um papel dominante na percepção da qualidade da imagem. Os autores do 3-SSIM também estenderam o modelo para SSIM de quatro componentes (4-SSIM). Os tipos de borda são subdivididos em bordas preservadas e alteradas por seu status de distorção. O peso proposto é 0,25 para todas as quatro componentes.[10]

Dissimilaridade estrutural[editar | editar código-fonte]

A dissimilaridade estrutural (DSSIM) pode ser derivada do SSIM, embora não constitua uma função de distância, pois a desigualdade triangular nem sempre é satisfeita.

Métricas de qualidade de vídeo e variantes temporais[editar | editar código-fonte]

A versão original do SSIM foi projetada para medir a qualidade de imagens estáticas. Não contém parâmetros diretamente relacionados aos efeitos temporais da percepção humana e ao julgamento humano.[7] Uma prática comum é calcular o valor médio de SSIM sobre todos os quadros na sequência de vídeo. No entanto, foram desenvolvidas diversas variantes temporais do SSIM.[11][6][12]

SSIM complexo com wavelets[editar | editar código-fonte]

A variante de transformada de wavelets complexa do SSIM (CW-SSIM) é projetada para lidar com problemas de escala, translação e rotação de imagens. Em vez de atribuir baixas pontuações a imagens nessas condições, o CW-SSIM aproveita a transformada de wavelets complexa e, portanto, fornece pontuações mais altas para tais imagens. O CW-SSIM é definido da seguinte forma:

Onde é a transformada de wavelets complexa do sinal e é a transformada de wavelets complexa para o sinal . Além disso, é um pequeno número positivo usado para fins de estabilidade da função. Idealmente, deveria ser zero. Assim como o SSIM, o CW-SSIM tem um valor máximo de 1. O valor máximo de 1 indica que os dois sinais são perfeitamente estruturalmente semelhantes, enquanto um valor de 0 indica nenhuma semelhança estrutural.[13]

SSIMPLUS[editar | editar código-fonte]

O índice SSIMPLUS é baseado no SSIM e é uma ferramenta comercialmente disponível.[14] Ele estende as capacidades do SSIM, principalmente para aplicações de vídeo. Fornece pontuações na faixa de 0 a 100, linearmente correspondentes às classificações subjetivas humanas. Também permite adaptar as pontuações ao dispositivo de visualização pretendido, comparando vídeos em diferentes resoluções e conteúdos.

Segundo seus autores, o SSIMPLUS alcança maior precisão e maior velocidade do que outras métricas de qualidade de imagem e vídeo. No entanto, nenhuma avaliação independente do SSIMPLUS foi realizada, pois o algoritmo em si não está publicamente disponível.

cSSIM[editar | editar código-fonte]

Para investigar ainda mais o SSIM "discreto" padrão de uma perspectiva teórica, o SSIM "contínuo" (cSSIM)[15] foi introduzido e estudado no contexto da interpolação por função de base radial.

SSIMULACRA[editar | editar código-fonte]

SSIMULACRA e SSIMULACRA2 são variantes do SSIM desenvolvidas pela Cloudinary com o objetivo de se adequarem a dados de opinião subjetiva. As variantes operam no espaço de cor XYB e combinam MS-SSIM com dois tipos de mapas de erro assimétricos para blocagem/sino e suavização/desfoque, artefatos comuns de compressão. SSIMULACRA2 faz parte do libjxl, a implementação de referência do JPEG XL.[16][17]

Outras modificações simples[editar | editar código-fonte]

A métrica de correlação cruzada r* é baseada nas métricas de variância do SSIM. É definida como r(x, y) = σxyσxσy quando σxσy ≠ 0, 1 quando ambos os desvios padrão são zero, e 0 quando apenas um é zero. Tem sido usado para analisar a resposta humana a fantasmas de contraste-detalhe.[18] O SSIM também foi usado no gradiente de imagens, tornando-se "G-SSIM". G-SSIM é especialmente útil em imagens desfocadas.[19] As modificações acima podem ser combinadas. Por exemplo, 4-G-r* é uma combinação de 4-SSIM, G-SSIM e r*. Isso consegue refletir a preferência de radiologistas por imagens muito melhor do que outras variantes de SSIM testadas.[20]

Aplicação[editar | editar código-fonte]

O SSIM tem aplicações em diversos problemas. Alguns exemplos são:

  • Compressão de imagem: na compressão de imagem, informações são deliberadamente descartadas para diminuir o espaço de armazenamento de imagens e vídeos. O MSE é tipicamente usado em tais esquemas de compressão. Segundo seus autores, o uso do SSIM em vez do MSE é sugerido para produzir melhores resultados para as imagens descomprimidas.[13]
  • Restauração de imagem: a restauração de imagem concentra-se em resolver o problema , onde é a imagem borrada que deve ser restaurada, é o kernel de desfoque, é o ruído aditivo e é a imagem original que desejamos recuperar. O filtro tradicional usado para resolver esse problema é o Filtro de Wiener. No entanto, o design do filtro de Wiener é baseado no MSE. Usar uma variante de SSIM, especificamente Stat-SSIM, é afirmado produzir resultados visuais melhores, de acordo com os autores do algoritmo.[13]
  • Reconhecimento de padrões: como o SSIM imita aspectos da percepção humana, ele pode ser usado para reconhecer padrões. Ao lidar com problemas como escalonamento, translação e rotação de imagem, os autores do algoritmo afirmam que é melhor usar CW-SSIM,[21] que é insensível a essas variações e pode ser aplicado diretamente por correspondência de modelo sem o uso de qualquer amostra de treinamento. Como abordagens de reconhecimento de padrões baseadas em dados podem produzir melhor desempenho quando uma grande quantidade de dados está disponível para treinamento, os autores sugerem o uso de CW-SSIM em abordagens baseadas em dados.[21]

Comparação de desempenho[editar | editar código-fonte]

Devido à sua popularidade, o SSIM é frequentemente comparado a outras métricas, incluindo métricas mais simples como MSE e PSNR, e outras métricas de qualidade de imagem e qualidade de vídeo. O SSIM tem sido repetidamente demonstrado superar significativamente o MSE e suas derivadas em precisão, incluindo pesquisas realizadas pelos próprios autores e outros.[7][22][23][24][25][26]

Um artigo de Dosselmann e Yang afirma que o desempenho do SSIM está "muito mais próximo do MSE" do que geralmente se assume. Embora eles não contestem a vantagem do SSIM sobre o MSE, afirmam uma dependência analítica e funcional entre as duas métricas.[8] De acordo com sua pesquisa, o SSIM foi encontrado para se correlacionar tão bem quanto os métodos baseados em MSE em bancos de dados subjetivos diferentes dos bancos de dados dos criadores do SSIM. Como exemplo, eles citam Reibman e Poole, que descobriram que o MSE superou o SSIM em um banco de dados contendo vídeo com perda de pacotes.[27] Em outro artigo, foi identificada uma ligação analítica entre PSNR e SSIM.[28]

Ver também[editar | editar código-fonte]

Referências

  1. Wang, Zhou; Bovik, A.C.; Sheikh, H.R.; Simoncelli, E.P. (1 de abril de 2004). «Avaliação da qualidade da imagem: da visibilidade do erro à similaridade estrutural». IEEE Transactions on Image Processing. 13 (4): 600–612. Bibcode:2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689Acessível livremente. ISSN 1057-7149. PMID 15376593. doi:10.1109/TIP.2003.819861 
  2. «Google Scholar». scholar.google.com. Consultado em 4 de julho de 2019 
  3. «IEEE Signal Processing Society, Best Paper Award» (PDF) 
  4. a b c d Wang, Z.; Simoncelli, E.P.; Bovik, A.C. (1 de novembro de 2003). «Multiscale structural similarity for image quality assessment». The Thirty-Seventh Asilomar Conference on Signals, Systems & Computers, 2003. 2. [S.l.: s.n.] pp. 1398–1402 Vol.2. CiteSeerX 10.1.1.58.1939Acessível livremente. ISBN 978-0-7803-8104-9. doi:10.1109/ACSSC.2003.1292216 
  5. a b Brunet, D.; Vass, J.; Vrscay, E. R.; Wang, Z. «On the mathematical properties of the structural similarity index» (PDF). IEEE Transactions on Image Processing. 21 (4): 2324–2328. Bibcode:2012ITIP...21.1488B. PMID 22042163. doi:10.1109/TIP.2011.2173206 
  6. a b Wang, Z.; Lu, L.; Bovik, A. C. «Video quality assessment based on structural distortion measurement». Signal Processing: Image Communication. 19 (2): 121–132. CiteSeerX 10.1.1.2.6330Acessível livremente. doi:10.1016/S0923-5965(03)00076-6 
  7. a b c Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (14 de fevereiro de 2016). «Applicability of Existing Objective Metrics of Perceptual Quality for Adaptive Video Streaming» (PDF). Electronic Imaging. 2016 (13): 1–7. doi:10.2352/issn.2470-1173.2016.13.iqsp-206 
  8. a b Dosselmann, Richard; Yang, Xue Dong (6 de novembro de 2009). «A comprehensive assessment of the structural similarity index». Signal, Image and Video Processing. 5 (1): 81–91. ISSN 1863-1703. doi:10.1007/s11760-009-0144-1 
  9. Li, Chaofeng; Bovik, Alan Conrad (1 de janeiro de 2010). «Avaliação de qualidade de vídeo ponderada por conteúdo usando um modelo de imagem de três componentes». Journal of Electronic Imaging. 19 (1): 011003–011003–9. Bibcode:2010JEI....19a1003L. ISSN 1017-9909. doi:10.1117/1.3267087 
  10. Li, Chaofeng; Bovik, Alan C. (agosto de 2010). «Índice de similaridade estrutural particionado por conteúdo para avaliação de qualidade de imagem». Signal Processing: Image Communication. 25 (7): 517–526. doi:10.1016/j.image.2010.03.004 
  11. «MSU Quality Measurement Tool: Metrics information». www.compression.ru 
  12. Wang, Z.; Li, Q. (dezembro de 2007). «Avaliação de qualidade de vídeo usando um modelo estatístico de percepção visual humana de velocidade» (PDF). Journal of the Optical Society of America A. 24 (12): B61–B69. Bibcode:2007JOSAA..24...61W. CiteSeerX 10.1.1.113.4177Acessível livremente. PMID 18059915. doi:10.1364/JOSAA.24.000B61 
  13. a b c Zhou Wang; Bovik, A.C. (janeiro de 2009). «Erro médio quadrático: Goste ou deixe? Uma nova visão sobre as medidas de fidelidade de sinal». IEEE Signal Processing Magazine. 26 (1): 98–117. Bibcode:2009ISPM...26...98W. ISSN 1053-5888. doi:10.1109/msp.2008.930649 
  14. Rehman, A.; Zeng, K.; Wang, Zhou (fevereiro de 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib, eds. «Avaliação de qualidade de experiência de vídeo adaptada ao dispositivo de exibição» (PDF). IS&T-SPIE Electronic Imaging, Human Vision and Electronic Imaging XX. Human Vision and Electronic Imaging XX. 9394. 939406 páginas. Bibcode:2015SPIE.9394E..06R. doi:10.1117/12.2077917 
  15. Marchetti, F. (janeiro de 2021). «Taxa de convergência em termos do índice SSIM contínuo (cSSIM) na interpolação por função de base radial» (PDF). Dolom. Res. Notes Approx. 14: 27–32 
  16. «SSIMULACRA 2 - Structural SIMilarity Unveiling Local And Compression Related Artifacts». Cloudinary. 12 de julho de 2023 
  17. «Detectando o impacto psicovisual de artefatos relacionados à compressão usando SSIMULACRA». Blog Cloudinary (em inglês). 14 de junho de 2017 
  18. Prieto, Gabriel; Guibelalde, Eduardo; Chevalier, Margarita; Turrero, Agustín (21 de julho de 2011). «Uso do componente de correlação cruzada da métrica de similaridade estrutural em múltiplas escalas (métrica R) na avaliação de imagens médicas». Física Médica. 38 (8): 4512–4517. PMID 21928621. doi:10.1118/1.3605634 
  19. Chen, Guan-hao; Yang, Chun-ling; Xie, Sheng-li (outubro de 2006). «Similaridade Estrutural Baseada em Gradiente para Avaliação de Qualidade de Imagem». Conferência Internacional de Processamento de Imagens de 2006. [S.l.: s.n.] pp. 2929–2932. ISBN 1-4244-0480-0. doi:10.1109/ICIP.2006.313132 
  20. Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-Leon, Nieves; del Castillo, Eduardo Guibelalde (26 de julho de 2017). «Família de índices de similaridade estrutural para avaliação da qualidade de imagem em imagens radiológicas». Journal of Medical Imaging. 4 (3). 035501 páginas. PMC 5527267Acessível livremente. PMID 28924574. doi:10.1117/1.JMI.4.3.035501 
  21. a b Gao, Y.; Rehman, A.; Wang, Z. (setembro de 2011). Classificação de Imagem com Base em CW-SSIM (PDF). Conferência Internacional de Processamento de Imagens da IEEE (ICIP11) 
  22. Zhang, Lin; Zhang, Lei; Mou, X.; Zhang, D. «A comprehensive evaluation of full reference image quality assessment algorithms». 2012 19th IEEE International Conference on Image Processing. [S.l.: s.n.] pp. 1477–1480. CiteSeerX 10.1.1.476.2566Acessível livremente. ISBN 978-1-4673-2533-2. doi:10.1109/icip.2012.6467150 
  23. Zhou Wang; Wang, Zhou; Li, Qiang. «Information Content Weighting for Perceptual Image Quality Assessment». IEEE Transactions on Image Processing. 20 (5): 1185–1198. Bibcode:2011ITIP...20.1185W. PMID 21078577. doi:10.1109/tip.2010.2092435 
  24. Channappayya, S. S.; Bovik, A. C.; Caramanis, C.; Heath, R. W. «SSIM-optimal linear image restoration». 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 765–768. CiteSeerX 10.1.1.152.7952Acessível livremente. ISBN 978-1-4244-1483-3. doi:10.1109/icassp.2008.4517722 
  25. Gore, Akshay; Gupta, Savita (1 de fevereiro de 2015). «Full reference image quality metrics for JPEG compressed images». AEU - International Journal of Electronics and Communications. 69 (2): 604–608. doi:10.1016/j.aeue.2014.09.002 
  26. Wang, Z.; Simoncelli, E. P. «Maximum differentiation (MAD) competition: a methodology for comparing computational models of perceptual quantities» (PDF). Journal of Vision. 8 (12): 8.1–13. PMC 4143340Acessível livremente. PMID 18831621. doi:10.1167/8.12.8 
  27. Reibman, A. R.; Poole, D. «Characterizing packet-loss impairments in compressed video». 2007 IEEE International Conference on Image Processing. 5. [S.l.: s.n.] pp. V – 77–V – 80. CiteSeerX 10.1.1.159.5710Acessível livremente. ISBN 978-1-4244-1436-9. doi:10.1109/icip.2007.4379769 
  28. Hore, A.; Ziou, D. «Image Quality Metrics: PSNR vs. SSIM». 2010 20th International Conference on Pattern Recognition. [S.l.: s.n.] pp. 2366–2369. ISBN 978-1-4244-7542-1. doi:10.1109/icpr.2010.579 

Ligações externas[editar | editar código-fonte]