Sobreajuste

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Sistema de predição em que a linha verde representa um modelo sobreajustado e a linha preta um modelo regularizado.

Sobre-ajuste (do inglês: overfitting) é o termo, em aprendizagem de máquina, estatística e afins, para quando o modelo estatístico se ajusta em demasiado ao conjunto de dados/amostra.

É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios. Ocorre o sobre-ajuste quando o modelo se ajusta a estes. Um modelo sobre-ajustado apresenta alta precisão quando testado com seu conjunto de dados, porém tal modelo não é uma boa representação da realidade e por isso deve ser evitado. É bem comum que estes modelos apresentem considerável variância e que seus gráficos tenham várias pequenas oscilações, portanto espera-se que modelos representativos sejam convexos.

Uma ferramenta para contornar o problema do sobre-ajuste é a regularização, que adiciona à função custo o valor dos parâmetros. Tal adição resulta na eliminação de parâmetros de pouca importância e, portanto, em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade. Através da validação cruzada, em que testamos o nosso modelo em relação a uma parte reservada do conjunto de dados que não foi utilizada no treino do modelo em questão, é possível se ter uma ideia de se o modelo sofre de sobre-ajuste ou não.

Ver também[editar | editar código-fonte]

Referências