Estou tentando entender a troca de viés e variância, a relação entre o viés do estimador e o viés do modelo e o relacionamento entre a variação do estimador e a variação do modelo.
Cheguei a estas conclusões:
- Tendemos a superestimar os dados quando negligenciamos o viés do estimador, ou seja, quando pretendemos apenas minimizar o viés do modelo, negligenciando a variação do modelo (em outras palavras, pretendemos minimizar a variação do estimador sem considerar o viés do estimador também)
- Vice-versa, tendemos a subestimar os dados quando negligenciamos a variação do estimador, ou seja, quando pretendemos apenas minimizar a variação do modelo, negligenciando o viés do modelo (em outras palavras, pretendemos apenas minimizar o viés do estimador sem considerar também a variância do estimador).
Minhas conclusões estão corretas?
Respostas:
Bem, mais ou menos. Conforme afirmado, você atribui ao cientista a intenção de minimizar o viés ou a variação. Na prática, você não pode observar explicitamente o viés ou a variação do seu modelo (se pudesse, saberia o sinal verdadeiro, caso em que não precisaria de um modelo). Em geral, você só pode observar a taxa de erro do seu modelo em um conjunto de dados específico e procura estimar a taxa de erro fora da amostra usando várias técnicas criativas.
Agora você não sabe que, pelo menos teoricamente, essa taxa de erro pode ser decomposta em termos de viés e variância, mas você não pode observar diretamente este equilíbrio em qualquer situação específica concreto. Então, eu iria reafirmar suas observações um pouco como:
Em geral, não há uma maneira real de ter certeza, pois você nunca pode realmente observar o viés do modelo. No entanto, existem vários padrões de comportamento que indicam uma situação ou outra:
Estes são os padrões que se manifestam nos famosos gráficos de taxas de erro por complexidade do modelo, este é de The Elements of Statistical Learning:
Muitas vezes, esses gráficos são sobrepostos a uma curva de viés e variância. Tirei este desta bela exposição :
Mas, é muito importante perceber que você nunca consegue ver essas curvas adicionais em nenhuma situação realista.
fonte
Ilustrando o tradeoff de desvio - variação usando um exemplo de brinquedo
Como aponta Matthew Drury, em situações realistas você não consegue ver o último gráfico, mas o exemplo de brinquedo a seguir pode fornecer interpretação visual e intuição para quem achar útil.
Conjunto de dados e suposições
Observe quex não é uma variável aleatória, portanto, a variação de Y é Va r ( Y) = Va r ( ϵ ) = 112
Ajustaremos um modelo de regressão polinomial linear a esse conjunto de dados do formuláriof^( x ) = β0 0+ β1 1x + β1 1x2+ . . . + βpxp .
Montagem de vários modelos de polinômios
Intuitivamente, você esperaria que uma curva de linha reta tivesse um desempenho ruim, pois o conjunto de dados é claramente não linear. Da mesma forma, o ajuste de um polinômio de ordem muito alta pode ser excessivo. Essa intuição é refletida no gráfico abaixo, que mostra os vários modelos e o erro quadrático médio correspondente para dados de trem e teste.
O gráfico acima funciona para uma única divisão de trem / teste, mas como sabemos se ele se generaliza?
Estimando o trem esperado e teste MSE
Aqui temos muitas opções, mas uma abordagem é dividir os dados aleatoriamente entre treinar / testar - ajustar o modelo na divisão especificada e repetir esse experimento várias vezes. O MSE resultante pode ser plotado e a média é uma estimativa do erro esperado.
É interessante ver que o MSE de teste flutua bastante para diferentes divisões de trem / teste dos dados. Porém, calcular a média de um número suficientemente grande de experimentos nos dá uma confiança melhor.
Observe a linha pontilhada cinza que mostra a variação deY computado no início. Parece que, em média, o teste MSE nunca está abaixo desse valor
Viés - Decomposição de Variância
Conforme explicado aqui, o MSE pode ser dividido em três componentes principais:
Onde no nosso estojo de brinquedos:
Dando a seguinte relação
Nota: o gráfico acima usa os dados de treinamento para ajustar-se ao modelo e calcula o MSE no teste train + .
fonte