Eu acho que já entendi a definição matemática de um estimador consistente. Corrija-me se eu estiver errado:
é um estimador consistente para if
Onde, é o Espaço Paramétrico. Mas quero entender a necessidade de um estimador ser consistente. Por que um estimador que não é consistente é ruim? Você poderia me dar alguns exemplos?
Eu aceito simulações em R ou python.
Respostas:
Se o estimador não for consistente, não convergirá para o valor verdadeiro em probabilidade . Em outras palavras, sempre há uma probabilidade de que seu estimador e seu valor verdadeiro tenham uma diferença, independentemente de quantos pontos de dados você tenha. Isso é realmente ruim, porque mesmo se você coletar uma quantidade imensa de dados, sua estimativa sempre terá uma probabilidade positiva de ser diferente do valor real. Na prática, você pode considerar essa situação como se estivesse usando um estimador de uma quantidade tal que mesmo o levantamento de toda a população, em vez de uma pequena amostra, não o ajudasse.ϵ>0
fonte
Considere observações da distribuição padrão de Cauchy, que é igual à distribuição t de Student com 1 grau de liberdade. As caudas dessa distribuição são suficientemente pesadas que não têm significado; a distribuição está centrada na sua medianan=10000 η=0.
Uma sequência de amostra significa que não é consistente para o centro da distribuição de Cauchy. Grosso modo, a dificuldade é que observações muito extremas (positivas ou negativas) ocorrem com regularidade suficiente para que não haja chance deAj=1j∑ji=1Xi Xi Aj η=0.AjAj convergir para (Os não demoram a convergir, eles nunca A distribuição de é novamente Cauchy padrão [ prova ].)η=0. Aj Aj
Por outro lado, em qualquer etapa de um processo contínuo de amostragem, cerca de metade das observaçõesXi se situam em ambos os lados de modo que a sequência das medianas da amostra converge paraη, Hj η.
Essa falta de convergência de e convergência de é ilustrada pela seguinte simulação.Aj Hj
Aqui está uma lista de etapas nas quais Você pode ver o efeito de algumas dessas observações extremas nas médias correntes no gráfico à esquerda (nas linhas pontilhadas vermelhas verticais).|Xi|>1000.
Consistência é importante na estimativa: na amostragem de uma população de Cauchy, a média da amostra de uma amostra den=10000 observações não é melhor para estimar o centro que apenas uma observação. Por outro lado, a mediana consistente da amostra converge para portanto amostras maiores produzem melhores estimativas.η η,
fonte
Um exemplo realmente simples de por que é importante pensar em consistência, que eu acho que não recebe atenção suficiente, é o de um modelo simplificado demais.
Como um exemplo teórico, suponha que você desejasse ajustar um modelo de regressão linear em alguns dados, nos quais os efeitos reais eram na verdade não lineares. Então, suas previsões não poderão ser consistentes para a verdadeira média de todas as combinações de covariáveis, enquanto uma mais flexível poderá. Em outras palavras, o modelo simplificado terá deficiências que não podem ser superadas com o uso de mais dados.
fonte
O @BruceET já deu uma excelente resposta técnica, mas eu gostaria de acrescentar um ponto sobre a interpretação de tudo isso.
Um dos conceitos fundamentais da estatística é que, à medida que o tamanho da amostra aumenta, podemos chegar a conclusões mais precisas sobre a distribuição subjacente. Você pode pensar nisso como a noção de que a coleta de muitas amostras elimina o jitter aleatório nos dados, para que possamos ter uma noção melhor da estrutura subjacente.
São abundantes exemplos de teoremas nesse sentido, mas o mais conhecido é a Lei dos Grandes Números, afirmando que, se tivermos uma família de variáveis aleatórias iid(Xi)i∈N E[X1]<∞ 1n∑k=1nXk→E[X] a.s.
Agora, exigir que um estimador seja consistente é exigir que ela também siga esta regra: Como seu trabalho é estimar um parâmetro desconhecido, gostaríamos que ele convergisse para esse parâmetro (leia-se: estimar esse parâmetro arbitrariamente bem) como nossa amostra. tamanho tende ao infinito.
A equação
fonte