Regressão por stepwise

Origem: Wikipédia, a enciclopédia livre.

Na estatística, a regressão por stepwise é um técnica de ajuste de modelos de regressão em que a escolha das variáveis preditivas é realizada por um procedimento automático.[1][2][3][4] Em cada etapa, uma variável é considerada para adição ou subtração do conjunto de variáveis explicativas com base em algum critério pré-especificado. Normalmente, se assume a forma de uma sequência de testes ou t, mas outras técnicas são possíveis, como R 2 ajustado, critério de informação de Akaike, critério de informação Bayesiano, Mallows, PRESS ou taxa de descoberta falsa.

Na prática frequente de ajuste do modelo final selecionado seguido de relatórios de estimativas e intervalos de confiança sem ajustá-los para levar em conta o processo de construção de modelo levou a pedidos para parar de usar a construção de modelo passo a passo[5][6] ou pelo menos ter certeza de a incerteza do modelo é refletida corretamente.[7][8]

Ficheiro:Stepwise.jpg
Neste exemplo da engenharia, a necessidade e a suficiência são geralmente determinadas por testes F. Para consideração adicional, ao planejar um experimento, simulação de computador ou pesquisa científica para coletar dados para este modelo, deve-se ter em mente o número de parâmetros, P, para estimar e ajustar o tamanho da amostra de acordo. Para variáveis K, P = 1 (início) + K (Estágio EU) + ( K 2 - K ) / 2 (Estágio II) + 3 K (Estágio III) = 0,5 K 2 + 3,5 K + 1 Para K < 17, existe um projeto eficiente de experimentos para este tipo de modelo, um projeto Box-Behnken,[9] aumentado com pontos axiais positivos e negativos de comprimento min (2, (int (1,5 + K / 4)) 1/2), mais ponto (s) na origem. Existem projetos mais eficientes, exigindo menos execuções, mesmo para K > 16

Principais abordagens[editar | editar código-fonte]

As principais abordagens são:

  • Seleção direta, que envolve começar sem variáveis no modelo, testar a adição de cada variável usando um critério de ajuste do modelo escolhido, adicionar a variável (se houver) cuja inclusão dá a melhoria estatisticamente significativa do ajuste e repetir este processo até nenhum melhora o modelo de forma estatisticamente significativa.
  • Eliminação reversa, que envolve começar com todas as variáveis candidatas, testar a exclusão de cada variável usando um critério de ajuste do modelo escolhido, excluir a variável (se houver) cuja perda dá a deterioração estatisticamente insignificante do ajuste do modelo e repetir este processo até não outras variáveis podem ser excluídas sem uma perda de ajuste estatisticamente insignificante.
  • Eliminação bidirecional, uma combinação das opções acima, testando em cada etapa as variáveis a serem incluídas ou excluídas.

Critério de seleção[editar | editar código-fonte]

  Um algoritmo amplamente usado foi proposto pela inicialmente por Efroymson (1960).[10] Este é um procedimento automático para seleção de modelo estatístico nos casos em que há um grande número de variáveis explicativas potenciais e nenhuma teoria subjacente na qual basear a seleção do modelo. O procedimento é usado principalmente na análise de regressão, embora a abordagem básica seja aplicável em muitas formas de seleção de modelo. Esta é uma variação da seleção direta. Em cada etapa do processo, após a adição de uma nova variável, é feito um teste para verificar se algumas variáveis podem ser excluídas sem aumentar sensivelmente a soma dos quadrados residuais (RSS). O procedimento termina quando a medida é (localmente) maximizada ou quando a melhoria disponível cai abaixo de algum valor crítico.

Um dos principais problemas com a regressão stepwise é que ela pesquisa um grande espaço de modelos possíveis. Portanto, é propenso a sobreajuste dos dados. Em outras palavras, a regressão stepwise muitas vezes se ajusta muito melhor na amostra do que em novos dados fora da amostra. Casos extremos foram observados em que os modelos alcançaram significância estatística trabalhando com números aleatórios.[11] Esse problema pode ser mitigado se o critério para adicionar (ou excluir) uma variável for rígido o suficiente. A linha-chave na areia está no que pode ser considerado o ponto de Bonferroni : a saber, quão significativa a melhor variável espúria deve ser baseada apenas no acaso. Em uma escala estatística t, isso ocorre em cerca de , onde p é o número de preditores. Infelizmente, isso significa que muitas variáveis que realmente transportam o sinal não serão incluídas. Esta cerca acabou sendo a compensação certa entre o excesso de ajuste e o sinal ausente. Se olharmos para o risco de diferentes pontos de corte, usar esse limite ficará dentro de um fator do melhor risco possível. Qualquer outro corte acabará tendo uma inflação de risco maior.[12][13]

Precisão do modelo[editar | editar código-fonte]

  Uma maneira de testar os erros em modelos criados por regressão passo a passo é não confiar na estatística F, significância ou R múltiplo do modelo, mas sim avaliar o modelo em relação a um conjunto de dados que não foi usado para criar o modelo .[14] Isso geralmente é feito construindo um modelo baseado em uma amostra do conjunto de dados disponível (por exemplo, 70%) - o " conjunto de treinamento " - e usar o restante do conjunto de dados (por exemplo, 30%) como um conjunto de validação para avaliar a precisão do modelo. A precisão é então frequentemente medida como o erro padrão atual (SE), MAPE ( erro percentual médio absoluto ) ou erro médio entre o valor previsto e o valor real na amostra de validação.[15] Este método é particularmente valioso quando os dados são coletados em ambientes diferentes (por exemplo, momentos diferentes, situações sociais versus situações solitárias) ou quando os modelos são considerados generalizáveis.

Crítica[editar | editar código-fonte]

Os procedimentos de regressão stepwise são usados na mineração de dados, mas são controversos. Vários pontos de crítica foram feitos.

  • Os próprios testes são tendenciosos, uma vez que se baseiam nos mesmos dados.[16][17] Wilkinson e Dallal (1981) [18] computaram pontos percentuais do coeficiente de correlação múltipla por simulação e mostraram que uma regressão final obtida por seleção direta, dita pelo procedimento F ser significativa a 0,1%, era de fato apenas significativa a 5 %
  • Ao estimar os graus de liberdade, o número de variáveis independentes candidatas do melhor ajuste selecionado pode ser menor do que o número total de variáveis do modelo final, fazendo com que o ajuste pareça melhor do que quando ajusta o valor de r 2 para o número de graus de liberdade. É importante considerar quantos graus de liberdade foram usados em todo o modelo, não apenas contar o número de variáveis independentes no ajuste resultante.[19]
  • Os modelos criados podem ser simplificações excessivas dos modelos reais dos dados.[20]

Essas críticas, baseadas nas limitações da relação entre um modelo e procedimento e o conjunto de dados usado para ajustá-lo, são geralmente tratadas por meio da verificação do modelo em um conjunto de dados independente, como no procedimento PRESS.

Os críticos consideram o procedimento um exemplo paradigmático de raspagem de dados, sendo a intensa computação frequentemente um substituto inadequado para o conhecimento da área de assunto. Além disso, os resultados da regressão por stepwise são frequentemente usados incorretamente, sem ajustá-los para a ocorrência de seleção de modelo. Especialmente na prática do ajuste do modelo final selecionado como se nenhuma seleção de modelo tivesse ocorrido e relatar estimativas e intervalos de confiança como se a teoria dos mínimos quadrados fosse válida para eles, foi descrita como um escândalo.[7] O generalizado uso incorreto e a disponibilidade de alternativas, como aprendizagem em conjunto, deixando todas as variáveis no modelo ou usando a opinião de especialistas para identificar variáveis relevantes, levaram a pedidos para evitar totalmente a seleção de modelo por etapas.[5]

Ver também[editar | editar código-fonte]

Referências

  1. Efroymson,M. A. (1960) "Multiple regression analysis," Mathematical Methods for Digital Computers, Ralston A. and Wilf,H. S., (eds.), Wiley, New York.
  2. Hocking, R. R. (1976) "The Analysis and Selection of Variables in Linear Regression," Biometrics, 32.
  3. Draper, N. and Smith, H. (1981) Applied Regression Analysis, 2d Edition, New York: John Wiley & Sons, Inc.
  4. SAS Institute Inc. (1989) SAS/STAT User's Guide, Version 6, Fourth Edition, Volume 2, Cary, NC: SAS Institute Inc.
  5. a b Flom, P. L. and Cassell, D. L. (2007) "Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use," NESUG 2007.
  6. Harrell, F. E. (2001) "Regression modeling strategies: With applications to linear models, logistic regression, and survival analysis," Springer-Verlag, New York.
  7. a b Chatfield, C. (1995) "Model uncertainty, data mining and statistical inference," J. R. Statist. Soc. A 158, Part 3, pp. 419–466.
  8. Efron, B. and Tibshirani, R. J. (1998) "An introduction to the bootstrap," Chapman & Hall/CRC
  9. Box–Behnken designs from a handbook on engineering statistics at NIST
  10. Efroymson, MA (1960) "Multiple regression analysis." In Ralston, A. and Wilf, HS, editors, Mathematical Methods for Digital Computers. Wiley.
  11. Knecht, WR. (2005). Pilot willingness to take off into marginal weather, Part II: Antecedent overfitting with forward stepwise logistic regression. (Technical Report DOT/FAA/AM-O5/15). Federal Aviation Administration
  12. Foster, Dean P., & George, Edward I. (1994). The Risk Inflation Criterion for Multiple Regression. Annals of Statistics, 22(4). 1947–1975. doi:10.1214/aos/1176325766
  13. Donoho, David L., & Johnstone, Jain M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika, 81(3):425–455. doi:10.1093/biomet/81.3.425
  14. Mark, Jonathan, & Goldberg, Michael A. (2001). Multiple regression analysis and mass assessment: A review of the issues. The Appraisal Journal, Jan., 89–109.
  15. Mayers, J.H., & Forgy, E.W. (1963). The Development of numerical credit evaluation systems. Journal of the American Statistical Association, 58(303; Sept), 799–806.
  16. Rencher, A. C., & Pun, F. C. (1980). Inflation of R² in Best Subset Regression. Technometrics, 22, 49–54.
  17. Copas, J.B. (1983). Regression, prediction and shrinkage. J. Roy. Statist. Soc. Series B, 45, 311–354.
  18. Wilkinson, L., & Dallal, G.E. (1981). Tests of significance in forward selection regression with an F-to enter stopping rule. Technometrics, 23, 377–380.
  19. Hurvich, C. M. and C. L. Tsai. 1990. The impact of model selection on inference in linear regression. American Statistician 44: 214–217.
  20. Roecker, Ellen B. (1991). Prediction error and its estimation for subset—selected models. Technometrics, 33, 459–468.