Eu já ouvi a seguinte expressão antes:
"Otimização é a raiz de todo mal nas estatísticas".
Por exemplo, a resposta principal neste tópico faz essa afirmação em referência ao perigo de otimizar de forma muito agressiva durante a seleção do modelo.
Minha primeira pergunta é a seguinte: Essa citação é atribuível a alguém em particular? (por exemplo, na literatura estatística)
Pelo que entendi, a afirmação se refere aos riscos de sobreajuste. A sabedoria tradicional diria que a validação cruzada adequada já luta contra esse problema, mas parece que há mais nesse problema do que isso.
Os estatísticos e profissionais de ML devem ter cuidado com a otimização excessiva de seus modelos, mesmo quando aderem a protocolos rígidos de validação cruzada (por exemplo, 100 CV de 10 vezes aninhado)? Se sim, como sabemos quando parar de procurar o "melhor" modelo?
fonte
Respostas:
A citação é uma paráfrase de uma citação de Donald Knuth , que ele próprio atribuiu a Hoare. Três extratos da página acima:
Não sei se concordo com a paráfrase estatística *. Há muitas 'más' nas estatísticas que não se relacionam à otimização.
Eu acho que o mais importante é entender completamente (ou o máximo possível) as propriedades de quais procedimentos você executa.
fonte
Algumas maneiras de analisar a cotação (nas estatísticas), assumindo que a otimização se refira à seleção do modelo (orientado a dados):
fonte