Inferência estatística sob especificação incorreta

O tratamento clássico da inferência estatística se baseia na suposição de que uma estatística especificada corretamente é usada. Ou seja, a distribuição que gerou os dados observados faz parte do modelo estatístico : No entanto, na maioria das situações, não podemos assumir que isso seja realmente verdade. Eu me pergunto o que acontece com os procedimentos de inferência estatística se abandonarmos a suposição especificada corretamente. $\mathbb{P}^*(Y)$ $y$ $\mathcal{M}$

P^{*} (Y) \in M = {P_{θ} (Y) : θ \in Θ}

$\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\}$

Eu encontrei algum trabalho de White 1982 sobre estimativas ML sob especificação incorreta. Argumenta-se que o estimador de máxima verossimilhança é um estimador consistente para a distribuição que minimiza a divergência KL de todas as distribuições dentro do modelo estatístico e a verdadeira distribuição .

P_{θ_{1}} = \arg min_{P_{θ} \in M} K eu (P^{*}, P_{θ})

$\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)$

P^{*}

$\mathbb{P}^*$

O que acontece com os estimadores de conjuntos de confiança? Permite recapitular estimadores de conjuntos de confiança. Seja $\delta:\Omega_Y \rightarrow 2^\Theta$ um estimador de conjunto, onde $\Omega_Y$ é o espaço de amostra e $2^\Theta$ a potência definida sobre o espaço de parâmetros $\Theta$ . O que gostaríamos de saber é a probabilidade do evento de que os conjuntos produzidos por $\delta$ incluam a distribuição verdadeira $\mathbb{P}^*$ , ou seja,

P^{*} (P^{*} \in {P_{θ} : θ \in δ (Y)}) := A .

$\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A.$

No entanto, é claro que não sabemos a verdadeira distribuição $\mathbb{P}^*$ . A suposição especificada corretamente nos diz que $\mathbb{P}^* \in \mathcal{M}$ . No entanto, ainda não sabemos qual é a distribuição do modelo. Mas,

inf_{θ \in Θ} P_{θ} (θ \in δ (Y)) := B

$\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=B$ é um limite para a probabilidade inferior

A

$A$ . A equação

B

$B$ é a definição clássica do nível de confiança para um estimador de conjunto de confiança.

Se abandonarmos a suposição especificada corretamente, $B$ não será necessariamente um limite inferior para $A$ , o termo em que realmente estamos interessados. De fato, se assumirmos que o modelo é mal especificado, o que é discutível no caso das situações mais realistas, $A$ é 0, porque a verdadeira distribuição $P^*$ não está contida no modelo estatístico $\mathcal{M}$ .

De outra perspectiva, pode-se pensar em que $B$ se relaciona quando o modelo é especificado incorretamente. Esta é uma pergunta mais específica. Does $B$ ainda tem um significado, se o modelo for mal especificado. Se não, por que estamos nos incomodando com estatísticas paramétricas?

Eu acho que White 1982 contém alguns resultados sobre essas questões. Infelizmente, minha falta de formação matemática me impede de entender muito do que está escrito lá.

hypothesis-testing confidence-interval model frequentist misspecification Julian Karls
fonte

Encontrei esta pergunta + resposta stats.stackexchange.com/questions/149773/… . É muito parecido. A leitura desses livros provavelmente levaria a uma resposta a essa pergunta. No entanto, ainda acho que um resumo de alguém que já fez isso seria muito útil.

Julian Karls

É uma pena que essa pergunta não tenha gerado mais interesse - o link de Julian tem um material interessante, mas eu estaria interessado em ouvir mais pensamentos sobre o assunto.

Florian Hartig 16/01

Bem, geralmente o que se faz é que a distribuição da estatística de teste seja computada sob a hipótese nula, assumindo que o modelo estatístico esteja correto. Se o valor p for baixo o suficiente, conclui-se que isso se deve ao acaso ou que o nulo é falso. Se o modelo for mal especificado, então também é uma conclusão que logicamente poderia ser desenhada. O mesmo vale para todas as outras inferências: o fato de o modelo ser mal especificado fornece uma conclusão alternativa. É assim que penso sobre isso, com base na leitura do trabalho de Spanos.

Toby

Essencialmente, todos os modelos estão errados. Ajuda a desenvolver quantitativamente a especificação incorreta. Para uma imagem, a especificação incorreta é o registro incorreto. Por exemplo, para contar erros (por exemplo, de decaimento radioativo) para um número suficiente de contagens, o erro é distribuído por Poisson. Nesse caso, o registro incorreto de uma série temporal é o erro do eixo y da raiz quadrada da imagem e o ruído está nessas mesmas unidades. Exemplo aqui .

Carl

Respostas:

Seja os dados observados, que se presume serem a realização de uma sequência de variáveis aleatórias iid com a função de densidade de probabilidade comum definida com relação a uma medida finita sigma . A densidade é denominada densidade de processo de geração de dados (DGP). $y_1, \ldots, y_n$ $Y_1, \ldots, Y_n$ $p_e$ $\nu$ $p_e$

No modelo de probabilidade do pesquisador é uma coleção de funções de densidade de probabilidade que são indexadas por um vetor de parâmetro . Suponha que cada densidade em seja definida em relação a uma medida sigma-finita comum (por exemplo, cada densidade pode ser uma função de massa de probabilidade com o mesmo espaço de amostra ). ${\cal M} \equiv \{ p(y ; \theta) : \theta \in \Theta \}$ $\theta$ ${\cal M}$ $\nu$ $S$

É importante manter a densidade que realmente gerou os dados conceitualmente distintos do modelo de probabilidade dos dados. Nos tratamentos estatísticos clássicos, uma separação cuidadosa desses conceitos é ignorada, não feita, ou assume-se desde o início que o modelo de probabilidade está especificado corretamente. $p_e$

Um modelo especificado corretamente em relação a é definido como um modelo em que quase em toda parte. Quando está especificado em relação a isso corresponde ao caso em que o modelo de probabilidade não está especificado corretamente. ${\cal M}$ $p_e$ $p_e \in {\cal M}$ $\nu$ ${\cal M}$ $p_e$

Se o modelo de probabilidade for especificado corretamente, existe um no espaço de parâmetros modo que quase em toda parte. Esse vetor de parâmetro é chamado de "vetor de parâmetro verdadeiro". Se o modelo de probabilidade for mal especificado, o vetor de parâmetro verdadeiro não existe. $\theta^*$ $\Theta$ $p_e(y) = p(y ; \theta^*)$ $\nu$

$\hat{\theta}_n$ $\hat{\ell}_n({\theta}) \equiv (1/n) \sum_{i=1}^n \log p(y_i ; { \theta})$ $\Theta$ $\theta^*$ $\hat{\ell}_n$ $\Theta$ $\Theta$ $\theta^*$

$\hat{\theta}_n$ $\hat{\theta}_n$ $\theta^*$ $\theta^*$

$\theta^*$ $\theta^*$ $p(y ; \theta^*)$

Finalmente, alguns comentários sobre a especificação incorreta do modelo. É fácil encontrar exemplos em que um modelo mal especificado é extremamente útil e muito preditivo. Por exemplo, considere um modelo de regressão não linear (ou mesmo linear) com um termo de erro residual gaussiano cuja variação é extremamente pequena, mas o erro residual real no ambiente não é gaussiano.

Também é fácil encontrar exemplos em que um modelo especificado corretamente não é útil nem preditivo. Por exemplo, considere um modelo de passeio aleatório para prever os preços das ações que prevêem que o preço de fechamento de amanhã é uma soma ponderada do preço de fechamento de hoje e algum ruído gaussiano com uma variação extremamente grande.

$\theta^*$

RMG
fonte

$\Theta$ $\mathcal{M}$ $\mathbb{P}_{\theta_1}$ $\mathbb{P}^*$ $\mathcal{M}$ $\mathbb{P}_{\theta_1}$

$A$ $B$ $A$ $\mathbb{P}^* \notin \mathcal{M}$ $A = 0$

A^{*} \equiv A^{*} (Y) \equiv P^{*} (P_{θ_{1}} \in {P_{θ} | θ \in δ (Y)}) .

$A^* \equiv A^*(Y) \equiv \mathbb{P}^* (\mathbb{P}_{\theta_1} \in \{P_\theta | \theta \in \delta(Y) \} ).$

$\mathbb{P}^*$ $\mathcal{M}$ $\mathbb{P}^* \notin \mathcal{M}$ $\mathbb{P}_{\theta_1} \in \mathcal{M}$

$\mathbb{P}_{\theta_1}$ $\delta$ $A^*$ $n \rightarrow \infty$ . Se você puder estabelecer um resultado de limite inferior (positivo) ou de convergência (positivo), isso lhe dará algum valor ao garantir que, mesmo se houver uma especificação incorreta, você ainda estimar corretamente o proxy mais próximo com algum nível de probabilidade. Eu recomendaria que você explorasse essas questões, seguindo o tipo de análise feita por White.

Restabelecer Monica
fonte