Decomposição de viés e variância: termo para o erro de previsão ao quadrado esperado menos erro irredutível

9

Hastie et al. "Os elementos do aprendizado estatístico" (2009) consideram um processo de geração de dados com e .E ( ε ) = 0 Var ( ε ) = σ 2 ε

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

Eles apresentam a seguinte decomposição de variação de polarização do erro esperado de previsão ao quadrado no ponto (p. 223, fórmula 7.9): Na minha próprio trabalho, não especifico mas faço uma previsão arbitrária (se isso for relevante). Pergunta: Estou procurando um termo para ou, mais precisamente, Erro ( x 0 )x0F () y polarização2+DesvioErro(x0)-erro irredutível.

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Bias2+Variance
Err(x0)Irreducible error.
Richard Hardy
fonte
3
Qual é a pergunta aqui?
Michael R. Chernick
11
@sntx, obrigado pela ideia. Mas, de alguma forma, não parece certo. Talvez erro de modelagem (ou seja, erro devido à especificação incorreta do modelo e estimativa imprecisa do modelo), mas não faça sentido se não houver um modelo de geração de previsão (por exemplo, previsões de especialistas).
Richard Hardy
11
@ DeltaIV, isso é bom. No entanto, acho que o termo é cobrado; parece que a previsão é ruim e poderíamos fazer melhor. Mas suponha que fizemos o melhor para os dados fornecidos. Por isso, escolhemos o modelo correto (sem "viés do modelo"), mas a amostra é pequena demais para estimar perfeitamente os coeficientes. A variação de estimativa ("variação de modelo") é, portanto, realmente irredutível para o tamanho de amostra especificado - enquanto o termo "erro redutível" sugere que esse não é o caso. Não que eu tenha certeza de que conseguiremos um termo melhor, eu ainda gostaria de lutar por isso.
Richard Hardy
11
@ DeltaIV, OK, agora tenho a intuição em que sentido é redutível. Ainda assim, o termo pode ser enganador se usado sem maiores explicações (assim como você tinha que me explicar). Sua última sugestão é precisa, o que é muito bom, mas, como você disse, é bastante complicada.
Richard Hardy
11
@ DeltaIV, eu não pretendia soar assim. Isso não é nada pessoal; meus argumentos (esperançosamente convincentes) estão acima nos comentários. Mas obrigado por ter a discussão comigo, isso ajuda.
Richard Hardy

Respostas:

4

Proponho erro redutível . Essa é também a terminologia adotada no parágrafo 2.1.1 de Gareth, Witten, Hastie & Tibshirani, Uma Introdução à Aprendizagem Estatística , um livro que é basicamente uma simplificação de ESL + alguns laboratórios muito legais de código R (exceto pelo fato de que eles usam attach, mas, ei, ninguém é perfeito). Vou listar abaixo os motivos dos prós e contras dessa terminologia.


Em primeiro lugar, devemos lembrar que não só assumem ter média 0, mas também para ser independente de (ver o ponto 2.6.1, a fórmula 2.29 do ESL, 2 nd edição, 12 th impressão). Então, é claro que não pode ser estimado a partir de , independentemente da classe de hipótese (família de modelos) que escolhemos e do tamanho de uma amostra que usamos para aprender nossa hipótese (estimar nosso modelo). Isso explica por que é chamado de erro irredutível .X ϵ X H σ 2 ϵϵXϵXHσϵ2

Por analogia, parece natural definir a parte restante do erro, , o erro redutível . Agora, essa terminologia pode parecer um pouco confusa: de fato, sob a suposição que fizemos para o processo de geração de dados, podemos provar queErr(x0)σϵ2

f(x)=E[Y|X=x]

Assim, o erro redutível pode ser reduzido a zero se e somente se (supondo que, é claro, tenhamos um estimador consistente). Se , não podemos conduzir o erro redutível para 0, mesmo no limite de um tamanho infinito de amostra. No entanto, ainda é a única parte do nosso erro que pode ser reduzida, se não eliminada, alterando o tamanho da amostra, introduzindo regularização (retração) em nosso estimador, etc. Em outras palavras, escolhendo outro em nossa família de modelos.E[Y|X=x]HE[Y|X=x]Hf^(x)

Basicamente, redutibilidade significa não no sentido de zerar (eca!), Mas no sentido da parte do erro que pode ser reduzida, mesmo que não seja necessariamente arbitrariamente pequena. Além disso, observe que, em princípio, esse erro pode ser reduzido para 0 aumentando até incluir . Em contraste, não pode ser reduzida, não importa quão grande é, porque .HE[Y|X=x]σϵ2HϵX

DeltaIV
fonte
Se o ruído é o erro irredutível, não é irredutível. Você precisa motivar isso de alguma forma, eu não posso fazer isso por mim mesmo.
266 Carl Carl
Em 2.1.1, o exemplo é "ensaio de alguma droga no sangue". O primeiro exemplo que dou abaixo é exatamente isso. Nesse ensaio, o chamado erro irredutível de medição não é nada disso. Ele é composto de contagem de ruído, que geralmente é reduzido pela contagem de 10000 ou mais eventos, erro de pipetagem, que é quase exponencialmente distribuído e outros erros técnicos. Para reduzir ainda mais esses erros "irredutíveis", recomendo usar a mediana de três tubos de contagem para cada amostra de tempo. O termo irredutível é um jargão ruim, tente novamente.
26218 Carl Carl
11
@ Delta, obrigado pela resposta. Um "erro redutível" de uma linha pode não ter sido muito convincente, mas, dado o contexto e a discussão, parece muito bom!
Richard Hardy
Não acho que o objetivo do desenvolvimento do jargão seja confundir as pessoas. Se você quiser dizer erro independente de , versus erro que é função de , diga o que você quer dizer. nn
2626 Carl
@DeltaV Acredito que redutibilidade é uma suposição dúbia, veja abaixo.
2624 Carl Carl
0

Em um sistema para o qual todas as ocorrências físicas foram modeladas adequadamente, o que sobra seria ruído. No entanto, geralmente há mais estrutura no erro de um modelo para os dados do que apenas ruído. Por exemplo, viés de modelagem e ruído por si só não explicam resíduos curvilíneos, ou seja, estrutura de dados não modelada. A totalidade da fração inexplicada é , que pode consistir em deturpação da física, bem como em viés e ruído da estrutura conhecida. Se por viés queremos dizer apenas o erro na estimativa da média y n n1R2y, por "erro irredutível" queremos dizer ruído, e por variação queremos dizer o erro físico sistêmico do modelo, então a soma do viés (quadrado) e do erro físico sistêmico não é nada especial, é apenas o erro que não é ruído . O termo registro incorreto (quadrado) pode ser usado para isso em um contexto específico, veja abaixo. Se você deseja dizer erro independente de , versus erro que é uma função denn , diga isso. IMHO, nenhum erro é irredutível, de modo que a propriedade irredutibilidade se engana a tal ponto que confunde mais do que ilumina.

Por que não gosto do termo "redutibilidade"? Cheira a uma tautologia autorreferencial como no axioma da redutibilidade . Concordo com Russell 1919 que "Eu não vejo nenhuma razão para acreditar que o axioma da redutibilidade é logicamente necessário, que é o que seria significa dizer que é verdade em todos os mundos possíveis. A admissão deste axioma em um sistema de a lógica é, portanto, um defeito ... uma suposição dúbia ".

Abaixo está um exemplo de resíduos estruturados devido à modelagem física incompleta. Isso representa resíduos do ajuste de mínimos quadrados ordinários de uma distribuição gama em escala, ou seja, uma gama gama (GV), a amostras de radioatividade do plasma sanguíneo de um radiofármaco filtrado glomerular renal [ 1 ]. Observe que quanto mais dados são descartados ( para cada amostra de tempo), melhor o modelo se torna, de modo que a redutibilidade diminui com mais faixa de amostra.n=36

insira a descrição da imagem aqui

É notável que, quando se joga a primeira amostra em cinco minutos, a física melhora como seqüencial, à medida que se continua a jogar as primeiras amostras para 60 minutos. Isso mostra que, embora o GV eventualmente forme um bom modelo para a concentração plasmática da droga, outra coisa está acontecendo nos primeiros tempos.

De fato, se alguém envolve duas distribuições gama, uma para o início, a distribuição circulatória da droga e outra para a liberação de órgãos, esse tipo de erro, erro de modelagem física, pode ser reduzido para menos de [ 2 ]. A seguir, uma ilustração dessa convolução.1%

insira a descrição da imagem aqui

A partir desse último exemplo, para uma raiz quadrada de contagens versus gráfico de tempo, os desvios do eixo são desvios padronizados no sentido de erro de ruído de Poisson. Esse gráfico é uma imagem para a qual erros de ajuste são erros de registro de distorção ou distorção da imagem. Nesse contexto, e somente nesse contexto, o registro incorreto é viés mais erro de modelagem e erro total é o registro incorreto mais erro de ruído.y

Carl
fonte
De fato, é disso que trata a decomposição acima. Mas sua resposta seria melhor servir como um comentário, pois não aborda a questão real. Ou faz?
Richard Hardy
Obrigado, mas a resposta ficou mais longe do tópico. Eu tenho um tempo difícil encontrar qualquer conexão entre a questão real (como faço para chamar ) e tudo isso ...Bias2+Variance
Richard Hardy
Mais uma vez, você está respondendo a uma pergunta diferente. Infelizmente, uma resposta certa para uma pergunta errada é uma resposta errada (uma observação para si mesmo: coincidentemente, eu estava explicando isso aos meus alunos de graduação ontem). Não estou perguntando o quanto a expressão tem significado (é significativa para alguém que leu o livro de ESL e / ou trabalhou no aprendizado de máquina aplicado), estou pedindo um termo adequado para ela. A questão é positiva, não normativa. E é bem simples e muito concreto.
Richard Hardy
@RichardHardy Sem a física, a pergunta era difícil de entender. Mudou minha resposta, veja o registro incorreto acima.
2424 Carl
11
Você pode fazer isso para estimar o processo, sim, e essa é a parte do erro redutível. Mas quando você prevê um evento concreto que inclui o lançamento da moeda, não há como reduzir o erro associado à previsão incorreta do resultado do lançamento da moeda. É disso que trata o erro irredutível. Interessante: em um mundo puramente determinístico, não haveria erros irredutíveis por definição; portanto, se sua visão do mundo é completamente determinística, talvez eu entenda o que você quer dizer. No entanto, o mundo é estocástico em "Os elementos da aprendizagem estatística" e nas estatísticas em geral.
Richard Hardy