Temos algumas perguntas e respostas sobre quando alguém prefere uma estimativa tendenciosa a uma imparcial, mas não encontrei nada na pergunta inversa:
Em que situações é importante considerar apenas estimadores imparciais ?
Muita ênfase é colocada no conceito de imparcialidade, nos cursos estatísticos introdutórios, mas nunca li uma defesa convincente disso. Como geralmente coletamos dados apenas uma vez, quando é útil estar correto em média (além do possível conforto psicológico que ele fornece)? Em que situações seria necessário estar correto em média?
Estou aberto a argumentos filosóficos, mas preferiria exemplos concretos de pesquisa ou indústria.
estimation
bias
unbiased-estimator
Matthew Drury
fonte
fonte
Respostas:
Eu acho que é seguro dizer que não há situação em que alguém precise de um estimador imparcial; por exemplo, se e tivermos , haverá um pequeno o suficiente para que você não possa se importar.μ = 1 E[μ^] = μ + ϵ ϵ
Com isso dito, acho importante ver estimadores imparciais como mais do limite de algo que é bom. Tudo o mais permanecendo o mesmo , menos viés é melhor. E existem muitos estimadores consistentes nos quais o viés é tão alto em amostras moderadas que o estimador sofre um grande impacto. Por exemplo, na maioria dos estimadores de probabilidade máxima, a estimativa dos componentes de variância geralmente é enviesada para baixo. Nos casos de intervalos de previsão, por exemplo, esse pode ser um problema muito grande diante do excesso de ajuste.
Em suma, seria extremamente difícil encontrar uma situação na qual são necessárias estimativas verdadeiramente imparciais. No entanto, é muito fácil encontrar problemas nos quais o viés de um estimador é o problema crucial. Ter um estimador imparcial provavelmente nunca é um requisito absoluto, mas ter um estimador imparcial significa que há um problema potencialmente sério resolvido.
EDITAR:
Depois de pensar um pouco mais, ocorreu-me que o erro fora da amostra é a resposta perfeita para sua solicitação. O método "clássico" para estimar o erro fora da amostra é o estimador de probabilidade máxima, que, no caso de dados normais, reduz ao erro dentro da amostra. Embora esse estimador seja consistente, com modelos com grandes graus de liberdade, o viés é tão ruim que ele recomenda modelos degenerados (ou seja, estimar 0 erro fora da amostra com modelos com excesso de ajuste). A validação cruzada é uma maneira inteligente de obter uma estimativa imparcial do erro fora da amostra. Se você usar a validação cruzada para fazer a seleção do modelo, novamente inclina para baixo sua estimativa de erro fora da amostra ... e é por isso que mantém um conjunto de dados de validação para obter uma estimativa imparcial do modelo final selecionado.
Obviamente, meu comentário sobre o que é verdadeiramente imparcial ainda permanece: se eu tivesse um estimador que esperasse o valor do erro fora da amostra + , felizmente o usaria para pequeno o suficiente . Mas o método de validação cruzada é motivado ao tentar obter um estimador imparcial do erro fora da amostra. E sem a validação cruzada, o campo de aprendizado de máquina ficaria completamente diferente do que é agora.ϵ ϵ
fonte