Concordância entre avaliadores

Em estatística, a concordância entre avaliadores (também chamada por vários nomes semelhantes, como confiabilidade entre avaliadores, confiabilidade entre observadores, confiabilidade entre codificadores e assim por diante) é o grau de concordância entre observadores independentes que classificam, codificam ou avaliam o mesmo fenômeno.

As ferramentas de avaliação que dependem de classificações devem apresentar boa confiabilidade entre avaliadores, caso contrário, não são testes válidos.

Há uma série de estatísticas que podem ser usadas para determinar a confiabilidade entre avaliadores. Diferentes estatísticas são apropriadas para diferentes tipos de medição. Algumas opções são a probabilidade conjunta de concordância, como o kappa de Cohen, o pi de Scott e o kappa de Fleiss; ou correlação interexaminadores, coeficiente de correlação de concordância, correlação intraclasse e alfa de Krippendorff.

Conceito[editar | editar código-fonte]

Existem várias definições operacionais de "confiabilidade entre avaliadores", refletindo diferentes pontos de vista sobre o que é um acordo confiável entre avaliadores.^[1] Existem três definições operacionais de acordo:

Avaliadores confiáveis concordam com a classificação "oficial" de um desempenho.
Avaliadores confiáveis concordam entre si sobre as classificações exatas a serem concedidas.
Avaliadores confiáveis concordam sobre qual desempenho é melhor e qual é pior.

Estatísticas[editar | editar código-fonte]

Probabilidade conjunta de concordância[editar | editar código-fonte]

A probabilidade conjunta de concordância é a medida mais simples e menos robusta. É estimada como a porcentagem de tempo que os avaliadores concordam em um sistema de classificação nominal ou categórico. Não leva em conta o fato de que o acordo pode acontecer apenas com base no acaso. Há alguma dúvida se há ou não a necessidade de 'corrigir' o acordo casual; alguns sugerem que, em qualquer caso, tal ajuste deva ser baseado em um modelo explícito de como o acaso e o erro afetam as decisões dos avaliadores.^[2]

Estatísticas Kappa[editar | editar código-fonte]

O Kappa é uma maneira de medir a concordância ou confiabilidade, corrigindo a frequência com que as classificações podem concordar por acaso. O kappa de Cohen,^[3] que funciona para dois avaliadores, e o kappa de Fleiss,^[4] uma adaptação que funciona para qualquer número fixo de avaliadores, melhoram a probabilidade conjunta na medida em que levam em conta a quantidade de concordância que poderia ser esperada ocorrer por acaso. As versões originais sofriam do mesmo problema da probabilidade conjunta, pois tratam os dados como nominais e presumem que as classificações não têm ordenação natural; se os dados realmente tiverem uma classificação (nível ordinal de medição), essa informação não será totalmente considerada nas medições.

Coeficientes de correlação[editar | editar código-fonte]

O $r$ de Pearson, τ de Kendall ou $\rho$ de Spearman podem ser usados para medir a correlação entre os avaliadores usando uma escala ordenada. A escala de Pearson presume que a escala de classificação seja contínua; as estatísticas de Kendall e Spearman presumem apenas que seja ordinal. Se forem observados mais de dois avaliadores, um nível médio de concordância para o grupo pode ser calculado como a média dos valores $r$ , τ, ou $\rho$ de cada possível par de avaliadores.

Coeficiente de correlação intraclasse[editar | editar código-fonte]

Outra maneira de realizar testes de confiabilidade é usar o coeficiente de correlação intraclasse (CCI).^[5] Existem vários tipos deste e um é definido como "a proporção de variância de uma observação devido à variabilidade entre sujeitos nas pontuações verdadeiras".^[6] O intervalo do CCI pode estar entre 0,0 e 1,0 (uma definição inicial de CCI pode estar entre −1 e +1). O CCI será alto quando houver pouca variação entre as pontuações atribuídas a cada item pelos avaliadores, por exemplo, se todos os avaliadores derem pontuações iguais ou semelhantes para cada um dos itens. O CCI é uma melhoria em relação ao $r$ de Pearson e ao $\rho$ de Spearman, pois leva em consideração as diferenças nas classificações para segmentos individuais, juntamente com a correlação entre os avaliadores.

Alfa de Krippendorff[editar | editar código-fonte]

O alfa de Krippendorff^[7]^[8] é uma estatística versátil que avalia a concordância alcançada entre observadores que categorizam, avaliam ou medem um determinado conjunto de objetos em termos dos valores de uma variável. Ele generaliza vários coeficientes de concordância especializados aceitando qualquer número de observadores, sendo aplicável a níveis de medição nominais, ordinais, intervalares e de razão, sendo capaz de lidar com dados ausentes e sendo corrigido para pequenos tamanhos de amostra.

Referências[editar | editar código-fonte]

↑ Saal, F. E., Downey, R. G., & Lahey, M. A. (1980). Rating the ratings: Assessing the psychometric quality of rating data. Psychological Bulletin, 88(2), 413.
↑ Uebersax, J. S. (1987). Diversity of decision-making models and the measurement of interrater agreement. Psychological Bulletin, 101(1), 140.
↑ Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.
↑ Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378.
↑ Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, 86(2), 420.
↑ Everitt, B. S. (1996). Making sense of statistics in psychology: A second-level course. New York, NY: Oxford University Press.
↑ Krippendorff, Klaus. Content analysis : an introduction to its methodology Fourth ed. Los Angeles: [s.n.] ISBN 9781506395661. OCLC 1019840156
↑ Hayes, A. F., & Krippendorff, K. (2007). Answering the call for a standard reliability measure for coding data. Communication Methods and Measures, 1(1), 77-89.

[1] Saal, F. E., Downey, R. G., & Lahey, M. A. (1980). Rating the ratings: Assessing the psychometric quality of rating data. Psychological Bulletin, 88(2), 413.

[2] Uebersax, J. S. (1987). Diversity of decision-making models and the measurement of interrater agreement. Psychological Bulletin, 101(1), 140.

[3] Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.

[4] Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378.

[5] Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, 86(2), 420.

[6] Everitt, B. S. (1996). Making sense of statistics in psychology: A second-level course. New York, NY: Oxford University Press.

[7] Krippendorff, Klaus. Content analysis : an introduction to its methodology Fourth ed. Los Angeles: [s.n.] ISBN 9781506395661. OCLC 1019840156

[8] Hayes, A. F., & Krippendorff, K. (2007). Answering the call for a standard reliability measure for coding data. Communication Methods and Measures, 1(1), 77-89.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]