Hastie et al. "Os elementos do aprendizado estatístico" (2009) consideram um processo de geração de dados com e .E ( ε ) = 0 Var ( ε ) = σ 2 ε
Eles apresentam a seguinte decomposição de variação de polarização do erro esperado de previsão ao quadrado no ponto (p. 223, fórmula 7.9): Na minha próprio trabalho, não especifico mas faço uma previsão arbitrária (se isso for relevante). Pergunta: Estou procurando um termo para ou, mais precisamente, Erro ( x 0 )F (⋅) y polarização2+DesvioErro(x0)-erro irredutível.
variance
forecasting
prediction
terminology
bias
Richard Hardy
fonte
fonte
Respostas:
Proponho erro redutível . Essa é também a terminologia adotada no parágrafo 2.1.1 de Gareth, Witten, Hastie & Tibshirani, Uma Introdução à Aprendizagem Estatística , um livro que é basicamente uma simplificação de ESL + alguns laboratórios muito legais de código R (exceto pelo fato de que eles usam
attach
, mas, ei, ninguém é perfeito). Vou listar abaixo os motivos dos prós e contras dessa terminologia.Em primeiro lugar, devemos lembrar que não só assumem ter média 0, mas também para ser independente de (ver o ponto 2.6.1, a fórmula 2.29 do ESL, 2 nd edição, 12 th impressão). Então, é claro que não pode ser estimado a partir de , independentemente da classe de hipótese (família de modelos) que escolhemos e do tamanho de uma amostra que usamos para aprender nossa hipótese (estimar nosso modelo). Isso explica por que é chamado de erro irredutível .X ϵ X H σ 2 ϵϵ X ϵ X H σ2ϵ
Por analogia, parece natural definir a parte restante do erro, , o erro redutível . Agora, essa terminologia pode parecer um pouco confusa: de fato, sob a suposição que fizemos para o processo de geração de dados, podemos provar queErr(x0)−σ2ϵ
Assim, o erro redutível pode ser reduzido a zero se e somente se (supondo que, é claro, tenhamos um estimador consistente). Se , não podemos conduzir o erro redutível para 0, mesmo no limite de um tamanho infinito de amostra. No entanto, ainda é a única parte do nosso erro que pode ser reduzida, se não eliminada, alterando o tamanho da amostra, introduzindo regularização (retração) em nosso estimador, etc. Em outras palavras, escolhendo outro em nossa família de modelos.E[Y|X=x]∈H E[Y|X=x]∉H f^(x)
Basicamente, redutibilidade significa não no sentido de zerar (eca!), Mas no sentido da parte do erro que pode ser reduzida, mesmo que não seja necessariamente arbitrariamente pequena. Além disso, observe que, em princípio, esse erro pode ser reduzido para 0 aumentando até incluir . Em contraste, não pode ser reduzida, não importa quão grande é, porque .H E[Y|X=x] σ2ϵ H ϵ⊥X
fonte
Em um sistema para o qual todas as ocorrências físicas foram modeladas adequadamente, o que sobra seria ruído. No entanto, geralmente há mais estrutura no erro de um modelo para os dados do que apenas ruído. Por exemplo, viés de modelagem e ruído por si só não explicam resíduos curvilíneos, ou seja, estrutura de dados não modelada. A totalidade da fração inexplicada é , que pode consistir em deturpação da física, bem como em viés e ruído da estrutura conhecida. Se por viés queremos dizer apenas o erro na estimativa da média y n n1−R2 y , por "erro irredutível" queremos dizer ruído, e por variação queremos dizer o erro físico sistêmico do modelo, então a soma do viés (quadrado) e do erro físico sistêmico não é nada especial, é apenas o erro que não é ruído . O termo registro incorreto (quadrado) pode ser usado para isso em um contexto específico, veja abaixo. Se você deseja dizer erro independente de , versus erro que é uma função den n , diga isso. IMHO, nenhum erro é irredutível, de modo que a propriedade irredutibilidade se engana a tal ponto que confunde mais do que ilumina.
Por que não gosto do termo "redutibilidade"? Cheira a uma tautologia autorreferencial como no axioma da redutibilidade . Concordo com Russell 1919 que "Eu não vejo nenhuma razão para acreditar que o axioma da redutibilidade é logicamente necessário, que é o que seria significa dizer que é verdade em todos os mundos possíveis. A admissão deste axioma em um sistema de a lógica é, portanto, um defeito ... uma suposição dúbia ".
Abaixo está um exemplo de resíduos estruturados devido à modelagem física incompleta. Isso representa resíduos do ajuste de mínimos quadrados ordinários de uma distribuição gama em escala, ou seja, uma gama gama (GV), a amostras de radioatividade do plasma sanguíneo de um radiofármaco filtrado glomerular renal [ 1 ]. Observe que quanto mais dados são descartados ( para cada amostra de tempo), melhor o modelo se torna, de modo que a redutibilidade diminui com mais faixa de amostra.n=36
É notável que, quando se joga a primeira amostra em cinco minutos, a física melhora como seqüencial, à medida que se continua a jogar as primeiras amostras para 60 minutos. Isso mostra que, embora o GV eventualmente forme um bom modelo para a concentração plasmática da droga, outra coisa está acontecendo nos primeiros tempos.
De fato, se alguém envolve duas distribuições gama, uma para o início, a distribuição circulatória da droga e outra para a liberação de órgãos, esse tipo de erro, erro de modelagem física, pode ser reduzido para menos de [ 2 ]. A seguir, uma ilustração dessa convolução.1%
A partir desse último exemplo, para uma raiz quadrada de contagens versus gráfico de tempo, os desvios do eixo são desvios padronizados no sentido de erro de ruído de Poisson. Esse gráfico é uma imagem para a qual erros de ajuste são erros de registro de distorção ou distorção da imagem. Nesse contexto, e somente nesse contexto, o registro incorreto é viés mais erro de modelagem e erro total é o registro incorreto mais erro de ruído.y
fonte