Estudo de simulação: como escolher o número de iterações?

Gostaria de gerar dados com o "Modelo 1" e ajustá-los com o "Modelo 2". A idéia subjacente é investigar as propriedades de robustez do "Modelo 2". Estou particularmente interessado na taxa de cobertura do intervalo de confiança de 95% (com base na aproximação normal).

Como defino o número de execuções de iteração?
É verdade que réplicas maiores que o necessário podem resultar em preconceitos espúrios? Se sim, como é isso?

simulation monte-carlo user7064
fonte

O que você quer dizer com "taxa de cobertura do intervalo de confiança de 95%"? Se o intervalo de confiança é exato ou um bom intervalo aproximado, ele cobre o valor real do parâmetro aproximadamente 95% do tempo.

Michael R. Chernick

Se você estiver gerando um intervalo de confiança baseado no Modelo 2 para dados gerados no Modelo 1, isso parece indicar que os dois modelos estão relacionados e contêm alguns dos mesmos parâmetros. Você pode explicar um pouco mais? Além disso, quando você diz "espúrio" em seu segundo marcador, está errado ou não é importante? Um número maior de simulações não deve produzir viés, mas pode revelar um viés que tem pouca importância prática que você não veria com um número menor, semelhante a como é possível detectar (ou seja, obter significância estatística) um efeito muito pequeno quando você tem um tamanho de amostra muito grande.

Macro

@ Michael Chernick: A cobertura insuficiente, por exemplo, pode ser alcançada se o erro padrão for muito pequeno. Eu editei minha pergunta para especificar do que usar intervalos de confiança com base na aproximação normal.

user7064

@ Macro: "Modelo 1" gera dados normais com termos de erro heterocedástico e "Modelo 2" é o modelo linear padrão.

user7064

Respostas:

Com base no seu comentário de acompanhamento, parece que você está tentando estimar a probabilidade de cobertura de um intervalo de confiança quando assume uma variação de erro constante quando a variação de erro real não é constante.

A maneira como penso sobre isso é que, para cada execução, o intervalo de confiança cobre o valor verdadeiro ou não. Defina uma variável de indicador:

Y_{i} = {\begin{cases} 1 & i f t h e i n t e r v a l c o v e r s \\ 0 & i f i t d o e s n o t \end{cases}

$Y_i = \begin{cases} 1 & {\rm if \ the \ interval \ covers} \\ 0 & {\rm if \ it \ does \ not } \end{cases}$

$E(Y_i) = p$

Como defino o número de execuções de iteração?

$p(1-p)$ $p$ $p(1-p)/n$ $n$ $n$

p (1 - p) / n \leq 1 / 4 n

$p(1-p)/n \leq 1/4n$

$\delta$ $n \geq 1/4\delta$

Em um cenário mais geral, se você estiver tentando investigar propriedades da distribuição amostral de um estimador por simulação (por exemplo, média e variância), poderá escolher seu número de simulações com base em quanta precisão deseja obter de forma análoga. moda ao descrito aqui.

$n$ $np$ $n(1-p)$ $20$

É verdade que réplicas maiores que o necessário podem resultar em preconceitos espúrios? Se sim, como é isso?

$94.9999\%$

Macro
fonte

Costumo usar a largura dos intervalos de confiança como uma maneira rápida e suja de determinar o número de iterações necessárias.

$p$ $X$ $n$ $X\sim {\rm Bin}(n,p)$

$\hat{p}=X/n$ $p$ $\sqrt{p(1-p)/n}$ $n$ $\hat{p}$ $\hat{p}\pm 1.96\sqrt{\hat{p}(1-\hat{p})/n}$ $p$ $p\approx 0.95$ $2\cdot 1.96\sqrt{0.95\cdot 0.05/n}$

$0.1$ $n$

0.1 = 2 \cdot 1.96 \sqrt{0.95 \cdot 0.05 / n} .

$0.1=2\cdot 1.96\sqrt{0.95\cdot 0.05/n}.$

$n$

MånsT
fonte

(+1) parece que enviamos uma resposta muito semelhante aproximadamente ao mesmo tempo, mas acho que o idioma diferente usado pode ser útil para alguns.

Macro

Sim, de fato, ainda não sei qual resposta aceitar! Enfim, +1 para ambos!

user7064

@ Macro: +1 para você também. A variação e a largura do intervalo são obviamente mais ou menos equivalentes aqui. Grandes mentes pensam da mesma forma - e a nossa também. ;)

MånsT

n = (2 \cdot 1.65 \sqrt{0.95 \cdot 0.05} / 0.01)^{2}

$n=(2\cdot 1.65 \sqrt{0.95\cdot 0.05}/0.01)^2$

$\dfrac{\text{Population Standard Deviation}}{\sqrt{n}}$ $d$ $95\%$ $d= 1.96 \times \dfrac{\text{Pop.Std.Dev}}{\sqrt{n}}$ $n=\dfrac{ (1.96 \times\text{Pop.Std.Dev})^2}{d^2}$

Fazer mais simulações (supondo que todas as amostras sejam geradas por um processo aleatório) não prejudica a estimativa em termos de precisão ou viés.

$95\%$ $n$ $\dfrac{p(1-p)}{n}$

Michael R. Chernick
fonte

Olá Michael. Eu acho que essa resposta erra o ponto. O OP está tentando investigar como as propriedades de cobertura de um intervalo de confiança são alteradas quando você assume uma variação constante, mas a variação verdadeira não é constante.

Macro

@ Macro: Você está certo. Eu deliberadamente coloquei a questão em um contexto mais amplo para evitar respostas específicas para o problema de assumir variação constante.

user7064

@ Macro Isso não fazia parte da pergunta que eu respondi. Aparentemente, isso foi esclarecido mais tarde. Parece também que o que interessava era a precisão de um intervalo de confiança que usa a aproximação normal. Isso não parece ser tratado em nenhuma das respostas.

Michael R. Chernick

@ Michael, sim, eu sei - meu argumento era mais que você (e eu) solicitamos esclarecimentos, mas não esperou pelo esclarecimento antes de postar sua resposta. Re: seu segundo comentário, você pode investigar as propriedades de cobertura de qualquer intervalo dessa maneira, independentemente de ter sido baseado na aproximação normal ou não. Se você acha que há algo diferente a acrescentar que está faltando nas respostas existentes, edite sua resposta para que todos possamos aprender.

Macro

@ Macro Claro que concordo com você. Editei minha resposta para o benefício do OP. Suspeito que não exista nada no conteúdo que você já não saiba.

Michael R. Chernick