Saltar para o conteúdo

Usuário(a):Dihestía/Escore (estatística)

Origem: Wikipédia, a enciclopédia livre.
Ver artigo principal: Score test

Em estatística, o escore (ou informação [1] ) é o gradiente da função de log-verossimilhança em relação ao vetor de parâmetros . Avaliada em um ponto particular do vetor de parâmetros, a pontuação indica à inclinação da função de log-verossimilhança e, portanto, a sensibilidade a mudanças infinitesimais nos valores dos parâmetros. Se a função de log-verossimilhança for contínua no espaço paramétrico, o escore tenderá em um máximo ou mínimo local; esse fato é usado na estimador de máxima verossimilhança para encontrar os valores dos parâmetros que maximizam a função de verossimilhança.

Como o escore é uma função das observações que estão sujeitas ao erro de amostragem, ela se presta a uma estatística de teste conhecida como teste escore em que o parâmetro é mantido em um determinado valor. Além disso, a razão de duas funções de verossimilhança avaliadas em dois valores de parâmetros distintos pode ser entendida como uma integral definida da função escore. [2]

Definição[editar | editar código-fonte]

O escore é o gradiente (o vetor das derivadas parciais ) de , o logaritmo natural da função de verossimilhança, em relação a um vetor de parâmetro m-dimensional .

Essa diferenciação produz um vetor linha, e indica a sensibilidade da verossimilhança (sua derivada normalizada por seu valor).

Na literatura antiga, "escore linear" pode se referir como a pontuação em relação à tradução infinitesimal de uma determinada densidade. Essa convenção surge de uma época em que o principal parâmetro de interesse era a média ou mediana de uma distribuição. Neste caso, a verossimilhança de uma observação é dada por uma densidade na forma . O "escore linear" é então definido como

Propriedades[editar | editar código-fonte]

Média[editar | editar código-fonte]

Enquanto a pontuação é uma função de , ela também depende das observações em que a função de verossimilhança é avaliada, e tendo em vista o caráter aleatório da amostragem pode-se tomar seu valor esperado sobre o espaço amostral . Sob certas condições de regularidade nas funções de densidade das variáveis aleatórias, [3] [4] o valor esperado do escore, avaliado no verdadeiro valor do parâmetro , é zero. Para ver isso, reescreva a função de verossimilhança como uma função de densidade de probabilidade , e denote o espaço amostral . Então:

As condições de regularidade assumidas permitem o intercâmbio de derivada e integral (consulte a Fórmula de Leibniz ), portanto, a expressão acima pode ser reescrita como

Vale a pena reafirmar o resultado acima em palavras: o valor escore esperado, no verdadeiro valor do parâmetro é zero. Assim, se alguém fosse amostrar repetidamente alguma distribuição e calcular repetidamente o escore, o valor médio dos escores tenderia a zero assintoticamente .

Variância[editar | editar código-fonte]

A variação do escore, , pode ser derivado da expressão acima para o valor esperado.

Portanto, a variância do escore é igual ao valor esperado negativo da matriz Hessiana do log-verossimilhança. [5]

Esta última é conhecida como informação de Fisher e é escrita . Observe que a informação de Fisher não é uma função de nenhuma observação em particular, pois a variável aleatória foi calculada da média. Este conceito de informação é útil quando se comparam dois métodos de observação de algum processo aleatório .

Exemplos[editar | editar código-fonte]

Processo de Bernoulli[editar | editar código-fonte]

Considere observar as primeiras n tentativas de um Processo de Bernoulli e ver que A delas são sucessos e as B restantes são falhas, onde a probabilidade de sucesso é θ .

Então a verossimilhança é

então o escore s é

Podemos agora verificar que a expectativa do escore é zero. Observando que a expectativa de A é e a expectativa de B é n (1 − θ ) [lembre-se que A e B são variáveis aleatórias], podemos ver que a expectativa de s é

Também podemos verificar a variação de . Nós sabemos que A + B = n (então B = nA ) e a variância de A é (1 − θ ) então a variância de s é

Modelo de resultado binário[editar | editar código-fonte]

Para modelos com resultados binários ( Y = 1 ou 0), o modelo pode ser escore com o logaritmo das previsões

onde p é a probabilidade no modelo a ser estimado e S é o escore. [6]

Aplicações[editar | editar código-fonte]

Algoritmo escore[editar | editar código-fonte]

O algoritmo escore é um método iterativo para determinar numericamente o estimador de máxima verossimilhança .

Teste escore[editar | editar código-fonte]

Observe que é uma função de e a observação , de modo que, em geral, não é uma estatística . No entanto, em certas aplicações, como o teste escore, a pontuação é avaliada em um valor específico de (como um valor da hipótese nula), no caso em que o resultado é uma estatística. Intuitivamente, se o estimador restrito estiver próximo do máximo da função de verossimilhança, o escore não deve diferir de zero em mais do que o erro amostral. Em 1948, C. R. Rao provou pela primeira vez que o quadrado do escore dividido pela matriz de informação segue uma distribuição χ 2 assintótica sob a hipótese nula. [7]

Observe ainda que o teste da razão de verossimilhança é dado por

o que significa que o teste de razão de verossimilhança pode ser entendido como a área sob a função escore entre e . [8]

Correspondência escore (aprendizado de máquina)[editar | editar código-fonte]

Pode parecer confuso que a palavra escore tenha sido usada para , pois não é uma função de verossimilhança, nem possui derivada em relação aos parâmetros. Para obter mais informações sobre essa definição, consulte o documento referenciado. [9]

Notas[editar | editar código-fonte]

  1. Informant in Encyclopaedia of Maths 
  2. Pickles, Andrew (1985), An Introduction to Likelihood Analysis, ISBN 0-86094-190-6, Norwich: W. H. Hutchins & Sons, pp. 24–29 
  3. Serfling, Robert J. (1980). Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons. ISBN 0-471-02403-1  Verifique o valor de |url-access=limited (ajuda)
  4. Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics : A Bridge to the Literature. New York: John Wiley & Sons. ISBN 0-471-09077-8 
  5. Sargan, Denis (1988). Lectures on Advanced Econometrics. Oxford: Basil Blackwell. pp. 16–18. ISBN 0-631-14956-2 
  6. Steyerberg, E. W.; Vickers, A. J.; Cook, N. R.; Gerds, T.; Gonen, M.; Obuchowski, N.; Pencina, M. J.; Kattan, M. W. (2010). «Assessing the performance of prediction models. A framework for traditional and novel measures». Epidemiology. 21 (1): 128–138. PMC 3575184Acessível livremente. PMID 20010215. doi:10.1097/EDE.0b013e3181c30fb2 
  7. Rao, C. Radhakrishna (1948). «Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation». Mathematical Proceedings of the Cambridge Philosophical Society. 44 (1): 50–57. Bibcode:1948PCPS...44...50R. doi:10.1017/S0305004100023987 
  8. Buse, A. (1982). «The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note». The American Statistician. 36 (3a): 153–157. doi:10.1080/00031305.1982.10482817 
  9. https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf

Referências[editar | editar código-fonte]

[[Categoria:Maximum likehood estimation]] [[Categoria:Estimador de máxima verossimilhança]] [[Categoria:Função escore]]