Saltar para o conteúdo

Regressão não linear: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
WilsonNeuroMat (discussão | contribs)
Linha 1: Linha 1:
[[Ficheiro:Non linear regression 10 x2.png|thumb|Exemplo de regressão não linear|265x265px]]
[[Ficheiro:Non linear regression 10 x2.png|thumb|Exemplo de regressão não linear|250x250px]]
Em [[estatística]], a '''regressão não-linear''' é uma forma de análise observacional em que os dados são modelados por uma função que é uma combinação não-linear de parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados geralmente pelo [[Método dos mínimos quadrados]] ou por algum método de aproximações sucessivas.
Em [[estatística]], a regressão não linear é uma forma de análise de regressão em que dados observacionais são modelados por uma função que é uma combinação não linear dos parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados por um método de aproximações sucessivas.<ref>{{Citar livro|url=https://books.google.com.br/books?id=dsrTBwAAQBAJ&pg=PA175&dq=Data+Fitting+in+Dynamical+Systems&hl=pt-BR&sa=X&redir_esc=y#v=snippet&q=Nonlinear%20regression&f=false|título=Numerical Data Fitting in Dynamical Systems: A Practical Introduction with Applications and Software|ultimo=Schittkowski|primeiro=Klaus|data=2013-06-05|editora=Springer Science & Business Media|lingua=en|isbn=9781441957627}}</ref>


==Definição==
Um modelo de regressão é não-linear se pelo menos um dos seus parâmetros aparecem de forma não-linear. Por exemplo, os modelos:
[[Image:Michaelis-Menten saturation curve of an enzyme reaction.svg|thumb|250 px| Curva de saturação para uma enzima mostrando a relação entre a concentração do substrato (abcissas) e a [[Cinética enzimática|velocidade de reação]] (ordenadas).]]
Os dados consistem de [[Variáveis dependentes e independentes|variáveis independentes]] livres de erro (variáveis explicativas) <math>x</math> e suas variáveis dependentes observadas associadas (variáveis de resposta) <math>y</math>. Cada <math>y</math> é modelada como uma [[variável aleatória]] com uma [[média]] dada por uma função não linear <math>f(x,\beta)</math>. O erro sistemático pode estar presente, mas seu tratamento está fora do escopo da análise de regressão. Se as variáveis independentes não estiverem livres de erro, este é um modelo com erros nas variáveis, também fora do escopo.<ref>{{Citar livro|url=https://books.google.com.br/books?id=YBYlCpBNo_cC&printsec=frontcover&dq=Nonlinear+Regression&hl=pt-BR&sa=X&redir_esc=y#v=onepage&q=Nonlinear%20Regression&f=false|título=Nonlinear Regression|ultimo=Seber|primeiro=George A. F.|ultimo2=Wild|primeiro2=C. J.|data=2003-09-19|editora=John Wiley & Sons|lingua=en|isbn=9780471471356}}</ref>


Por exemplo, o modelo de [[Cinética enzimática#Cinética de Michaelis–Menten|Michaelis–Menten]] para cinética de enzimas
E(y) = exp(θ<sub>1</sub> + θ<sub>2</sub> x) , (1)


:<math> v = \frac{V_\max\ [\mbox{S}]}{K_m + [\mbox{S}]} </math>
E(y) = θ<sub>1</sub> + θ<sub>2</sub> exp( −θ<sub>3</sub>x), (2)


pode ser escrito como
E(y) = (θ<sub>1</sub> + θ<sub>2</sub> x)<sup>−1</sup>, (3)


:<math> f(x,\boldsymbol\beta)= \frac{\beta_1 x}{\beta_2 + x} </math>
E(y) = (θ<sub>1</sub> −θ<sub>2</sub>)<sup>−1</sup> [exp(−θ<sub>1</sub>x)+ exp(−θ<sub>2</sub>x)], (4)


em que <math>\beta_1</math> é o parâmetro <math>V_\max</math>, <math>\beta_2</math> é o parâmetro <math>K_m</math> e <math>[\mbox{S}]</math> é a variável independente <math>x</math>. Esta função é não linear porque não pode ser expressa como uma [[combinação linear]] dos dois <math>\beta</math>s.
são todos não-lineares e o operador E(⋅) denota a função esperança ou função de regressão (ver Mazucheli e Achcar (2002).


Outros exemplos de funções não lineares incluem [[Função exponencial natural|funções exponenciais naturais]], [[Crescimento logarítmico|crescimentos logarítmicos]], [[Função trigonométrica|funções trigonométricas]], [[Exponenciação|exponenciações]], [[Função de Gauss|funções de Gauss]] e [[Curva de Lorenz|curvas de Lorenz]]. Algumas funções, tais como as funções exponenciais e logarítmicas, podem ser transformadas a fim de que se tornem lineares. Quando transformadas, a regressão linear padrão pode ser realizada, mas deve ser aplicada com cautela.
=== Regressão Exponencial ===
Em determinados experimentos, em sua maioria biológicos, a dependência entre as variáveis X e Y é de forma [[exponencial]], neste caso se quer ajustar à tabela de pontos uma função do tipo:


Em geral, não há expressão de forma fechada para os parâmetros mais bem ajustados, como há na [[regressão linear]]. Geralmente, algoritmos de [[otimização]] numérica são aplicados para determinar os parâmetros mais bem ajustados. De novo em contraste com a regressão linear, pode haver muitos [[Mínimo local|mínimos locais]] da função a ser otimizada e mesmo o mínimo global pode produzir uma estimativa [[Viés sistemático|viesada]]. Na prática, valores estimados dos parâmetros são usados, em conjunção com o algoritmo de otimização, a fim de encontrar o mínimo global de uma soma de quadrados.
:<math> y = a e^{b x} \,\!</math>


==Estatística==
Mediante uma [[transformação linear]], usando [[logaritmo natural|logaritmos neperianos]], o problema pode ser convertido em uma questão de [[regressão linear]]:
O pressuposto subjacente a este procedimento é de que o modelo pode ser aproximado por uma função linear.
:<math> f(x_i,\boldsymbol\beta)\approx f^0+\sum_j J_{ij}\beta_j </math>
em que <math>J_{ij}=\frac{\partial f(x_i,\boldsymbol\beta)}{\partial \beta_j}</math>. Segue-se disto que os estimadores dos mínimos quadrados são dados por
:<math>\hat{\boldsymbol{\beta}} \approx \mathbf { (J^TJ)^{-1}J^Ty}.</math>
A estatística da regressão não linear é computada e usada como na estatística da regressão linear, mas usando <math>\boldsymbol{J}</math> no lugar de <math>\boldsymbol{X}</math> nas fórmulas. A aproximação linear introduz viés na estatística. Por isso, mais cautela ainda é exigida na interpretação da estatística derivada de um modelo não linear.


==Mínimos quadrados ordinários e ponderados==
:<math> y/a = e^{b x} \,\!</math>


Assume-se que a curva mais bem ajustada seja a que minimiza a soma dos quadrados dos resíduos.<ref>{{Citar periódico|ultimo=Meade|primeiro=Nigel|ultimo2=Islam|primeiro2=Towhidul|data=1995-09-01|titulo=Prediction intervals for growth curve forecasts|jornal=Journal of Forecasting|volume=14|numero=5|paginas=413–430|issn=1099-131X|doi=10.1002/for.3980140502|url=http://onlinelibrary.wiley.com/doi/10.1002/for.3980140502/abstract|idioma=en}}</ref> Esta é a abordagem dos [[mínimos quadrados]] ordinários. Entretanto, nos casos em que a variável dependente não tem variância constante, uma soma dos quadrados ponderados dos resíduos ponderados pode ser minimizada. Cada peso deve ser idealmente igual à recíproca da variância da observação, mas os pesos devem ser recomputados em cada iteração em um algoritmo de mínimos quadrados iterativamente ponderados.
:<math> \ln{(y/a)} = b x * \ln{(e)} \,\!</math>


==Linearização==
:<math> \ln{(y)} - \ln{(a)} = b x \,\!</math>
[[Image:MUSTARD.JPG|thumb|250 px|Relação entre rendimento da colza e salinidade do solo]]
===Transformação===
Alguns problemas da regressão não linear podem ser movidos para um domínio linear por uma transformação adequada da formulação do modelo.<ref>{{Citar livro|url=https://books.google.com.br/books?id=Jesqo5IIDc8C&printsec=frontcover&dq=Statistical+Methods+for+Engineers+and+Scientists&hl=pt-BR&sa=X&redir_esc=y#v=onepage&q=Nonlinear%20regression&f=false|título=Statistical Methods for Engineers and Scientists, Third Edition,|ultimo=Bethea|primeiro=Robert M.|data=1995-03-30|editora=CRC Press|lingua=en|isbn=9780824793357}}</ref>


Por exemplo, considere o problema da regressão não linear<ref>{{Citar periódico|ultimo=Mazucheli|primeiro=Josmar|ultimo2=Achcar|primeiro2=Jorge Alberto|data=2008-04-22|titulo=Algumas considerações em regressão não linear|jornal=Acta Scientiarum. Technology|volume=24|numero=0|paginas=1761–1770|issn=1807-8664|url=http://periodicos.uem.br/ojs/index.php/ActaSciTechnol/article/view/2551|idioma=pt}}</ref>
:<math> \ln{(y)} = b x + \ln{(a)} \,\!</math>


:<math> y = a e^{b x}U \,\!</math>


com parâmetros <math>a</math> e <math>b</math> e com termo de erro multiplicativo <math>U</math>. Tomando o logaritmo de ambos os lados, isto se torna
onde:


:<math> \ln{(y)} = \ln{(a)} + b x + u, \,\!</math>


em que <math>u=\ln(U)</math>, sugerindo a estimação dos parâmetros desconhecidos por uma regressão linear de <math>\ln(y)</math> em <math>x</math>, uma computação que não requer otimização iterativa. Entretanto, o uso da transformação não linear exige cautela. As influências dos valores dos dados mudarão, assim como a estrutura de erro do modelo e a interpretação de quaisquer resultados inferenciais. Estes efeitos podem não ser desejados. Por outro lado, dependendo de qual seja a maior fonte de erro, uma transformação não linear pode distribuir os erros em uma forma gaussiana, logo, a escolha de fazer uma transformação não linear deve ser informada por considerações de modelagem.
b = <math> \frac {\sum xy - \bar{y}\sum x} {\sum x^2 - \bar{x}\sum x } </math>


Para a cinética de Michaelis-Menten, o diagrama linear de Lineweaver-Burk


a = <math> \bar{y} - (b \bar{x}) </math>
:<math> \frac{1}{v} = \frac{1}{V_\max} + \frac{K_m}{V_{\max}[S]}</math>
== Referências ==
* MAZUCHELI, J.; ACHCAR, J. Algumas considerações em regressão não linear. Acta Scientiarum. v. 24, n. 6, p.&nbsp;1761-1770, 2002. Disponível em: <http://www.periodicos.uem.br/ojs/index.php/ActaSciTechnol/article/view/2551/1574>. Acesso em: 7 jan. 2010.
* {{Link||2=https://sites.google.com/site/mgbfreeware/ |3=SysLinea 0.1.2 |4=: Programa de código aberto (pascal) com regressão linear e não linear. Pré compilado para [[Windows]] e [[Linux]].}}


de <math>\frac{1}{v}</math> contra <math>\frac{1}{[S]}</math> tem sido muito usado. Entretanto, por ser muito sensível a erros de dados e fortemente viesado em favor de ajustar os dados a um intervalo particular da variável independente <math>[S]</math>, seu uso é fortemente desencorajado.
== {{Ver também}} ==

* [[Regressão linear]]
Para distribuições de erros que pertencem à família exponencial, uma função de ligação pode ser usada para transformar os parâmetros sob o quadro do [[modelo linear generalizado]].

===Segmentação===
A variável independente ou explicativa <math>X</math> pode ser dividida em classes ou segmentos e a regressão linear pode ser realizada por segmento. A regressão segmentada com [[Intervalo de confiança|análise de confiança]] pode fazer que a variável dependente ou de resposta <math>Y</math> se comporte diferentemente nos vários segmentos.<ref>{{Citar livro|url=https://books.google.com.br/books?id=IpUQAQAAMAAJ&dq=Drainage+Principles+and+Applications&hl=pt-BR&sa=X&redir_esc=y|título=Drainage Principles and Applications|ultimo=Ritzema|primeiro=H. P.|data=1994-01-01|editora=International Institute for Land Reclamation and Improvement|lingua=en|isbn=9789070754334}}</ref>

A imagem ao lado mostra, por exemplo, que a [[salinidade]] do solo <math>X</math> inicialmente não exerce influência no rendimento <math>Y</math> da [[colza]] até um valor crítico, a partir do qual o rendimento é afetado negativamente.<ref>{{citar periódico|ultimo=Oosterbaan|primeiro=R.J.|ano=2002|titulo=Drainage Research in Farmers’ Fields: Analysis of Data|jornal=Liquid Gold|url=https://www.waterlog.info/pdf/analysis.pdf|acessadoem=14/06/2017}}</ref>

==Ver também==
* [[Ajuste de curvas]]
* [[Método dos mínimos quadrados]]
* [[Método dos mínimos quadrados]]
* [[Modelo linear generalizado]]
* [[Regressão linear]]


==Referências==
{{Econometria|state=autocollapse}}
{{Estatística}}
{{Reflist}}


{{Econometria}}
{{DEFAULTSORT:Regressao Nao Linear}}
{{Estatística}}


[[Categoria:Análise de regressão]]
[[Categoria:Análise de regressão]]

Revisão das 18h57min de 14 de junho de 2017

Exemplo de regressão não linear

Em estatística, a regressão não linear é uma forma de análise de regressão em que dados observacionais são modelados por uma função que é uma combinação não linear dos parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados por um método de aproximações sucessivas.[1]

Definição

Curva de saturação para uma enzima mostrando a relação entre a concentração do substrato (abcissas) e a velocidade de reação (ordenadas).

Os dados consistem de variáveis independentes livres de erro (variáveis explicativas) e suas variáveis dependentes observadas associadas (variáveis de resposta) . Cada é modelada como uma variável aleatória com uma média dada por uma função não linear . O erro sistemático pode estar presente, mas seu tratamento está fora do escopo da análise de regressão. Se as variáveis independentes não estiverem livres de erro, este é um modelo com erros nas variáveis, também fora do escopo.[2]

Por exemplo, o modelo de Michaelis–Menten para cinética de enzimas

pode ser escrito como

em que é o parâmetro , é o parâmetro e é a variável independente . Esta função é não linear porque não pode ser expressa como uma combinação linear dos dois s.

Outros exemplos de funções não lineares incluem funções exponenciais naturais, crescimentos logarítmicos, funções trigonométricas, exponenciações, funções de Gauss e curvas de Lorenz. Algumas funções, tais como as funções exponenciais e logarítmicas, podem ser transformadas a fim de que se tornem lineares. Quando transformadas, a regressão linear padrão pode ser realizada, mas deve ser aplicada com cautela.

Em geral, não há expressão de forma fechada para os parâmetros mais bem ajustados, como há na regressão linear. Geralmente, algoritmos de otimização numérica são aplicados para determinar os parâmetros mais bem ajustados. De novo em contraste com a regressão linear, pode haver muitos mínimos locais da função a ser otimizada e mesmo o mínimo global pode produzir uma estimativa viesada. Na prática, valores estimados dos parâmetros são usados, em conjunção com o algoritmo de otimização, a fim de encontrar o mínimo global de uma soma de quadrados.

Estatística

O pressuposto subjacente a este procedimento é de que o modelo pode ser aproximado por uma função linear.

em que . Segue-se disto que os estimadores dos mínimos quadrados são dados por

A estatística da regressão não linear é computada e usada como na estatística da regressão linear, mas usando no lugar de nas fórmulas. A aproximação linear introduz viés na estatística. Por isso, mais cautela ainda é exigida na interpretação da estatística derivada de um modelo não linear.

Mínimos quadrados ordinários e ponderados

Assume-se que a curva mais bem ajustada seja a que minimiza a soma dos quadrados dos resíduos.[3] Esta é a abordagem dos mínimos quadrados ordinários. Entretanto, nos casos em que a variável dependente não tem variância constante, uma soma dos quadrados ponderados dos resíduos ponderados pode ser minimizada. Cada peso deve ser idealmente igual à recíproca da variância da observação, mas os pesos devem ser recomputados em cada iteração em um algoritmo de mínimos quadrados iterativamente ponderados.

Linearização

Relação entre rendimento da colza e salinidade do solo

Transformação

Alguns problemas da regressão não linear podem ser movidos para um domínio linear por uma transformação adequada da formulação do modelo.[4]

Por exemplo, considere o problema da regressão não linear[5]

com parâmetros e e com termo de erro multiplicativo . Tomando o logaritmo de ambos os lados, isto se torna

em que , sugerindo a estimação dos parâmetros desconhecidos por uma regressão linear de em , uma computação que não requer otimização iterativa. Entretanto, o uso da transformação não linear exige cautela. As influências dos valores dos dados mudarão, assim como a estrutura de erro do modelo e a interpretação de quaisquer resultados inferenciais. Estes efeitos podem não ser desejados. Por outro lado, dependendo de qual seja a maior fonte de erro, uma transformação não linear pode distribuir os erros em uma forma gaussiana, logo, a escolha de fazer uma transformação não linear deve ser informada por considerações de modelagem.

Para a cinética de Michaelis-Menten, o diagrama linear de Lineweaver-Burk

de contra tem sido muito usado. Entretanto, por ser muito sensível a erros de dados e fortemente viesado em favor de ajustar os dados a um intervalo particular da variável independente , seu uso é fortemente desencorajado.

Para distribuições de erros que pertencem à família exponencial, uma função de ligação pode ser usada para transformar os parâmetros sob o quadro do modelo linear generalizado.

Segmentação

A variável independente ou explicativa pode ser dividida em classes ou segmentos e a regressão linear pode ser realizada por segmento. A regressão segmentada com análise de confiança pode fazer que a variável dependente ou de resposta se comporte diferentemente nos vários segmentos.[6]

A imagem ao lado mostra, por exemplo, que a salinidade do solo inicialmente não exerce influência no rendimento da colza até um valor crítico, a partir do qual o rendimento é afetado negativamente.[7]

Ver também

Referências

  1. Schittkowski, Klaus (5 de junho de 2013). Numerical Data Fitting in Dynamical Systems: A Practical Introduction with Applications and Software (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9781441957627 
  2. Seber, George A. F.; Wild, C. J. (19 de setembro de 2003). Nonlinear Regression (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780471471356 
  3. Meade, Nigel; Islam, Towhidul (1 de setembro de 1995). «Prediction intervals for growth curve forecasts». Journal of Forecasting (em inglês). 14 (5): 413–430. ISSN 1099-131X. doi:10.1002/for.3980140502 
  4. Bethea, Robert M. (30 de março de 1995). Statistical Methods for Engineers and Scientists, Third Edition, (em inglês). [S.l.]: CRC Press. ISBN 9780824793357 
  5. Mazucheli, Josmar; Achcar, Jorge Alberto (22 de abril de 2008). «Algumas considerações em regressão não linear». Acta Scientiarum. Technology. 24 (0): 1761–1770. ISSN 1807-8664 
  6. Ritzema, H. P. (1 de janeiro de 1994). Drainage Principles and Applications (em inglês). [S.l.]: International Institute for Land Reclamation and Improvement. ISBN 9789070754334 
  7. Oosterbaan, R.J. (2002). «Drainage Research in Farmers' Fields: Analysis of Data» (PDF). Liquid Gold. Consultado em 14 de junho de 2017