Sobreajuste

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Sistema de predição em que a linha verde representa um modelo sobreajustado e a linha preta um modelo regularizado.

Sobre-ajuste (do inglês: overfitting) é o termo, em aprendizagem de máquina, estatística e afins, para quando o modelo estatístico se ajusta em demasiado ao conjunto de dados/amostra. É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios, ocorre o sobre-ajuste quando o modelo se ajusta a estes. Um modelo sobre-ajustado apresenta alta precisão quando testado com seu conjunto de dados porém tal modelo não é uma boa representação da realidade e por isso deve ser evitado. É bem comum que estes modelos apresentem considerável variância e que seus gráficos tenham várias pequenas oscilações, por tanto espera se que modelos representativos sejam convexos. Uma ferramenta para contornar este problema é a regularização, que adiciona à função custo o valor dos parâmetros. Tal resulta na eliminação de parâmetros de pouca importância e por tanto em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade. Através da validação cruzada, em que testamos o nosso modelo em relação a uma parte reservada do conjunto de dados que não foi utilizada no treino do modelo em questão, é possível se ter uma ideia de se o modelo sofre de sobre-ajuste ou não.

Ver também[editar | editar código-fonte]

Referências