Cálculo do tamanho da amostra necessário, estimativa da precisão da variância?

17

fundo

Eu tenho uma variável com uma distribuição desconhecida.

Eu tenho 500 amostras, mas gostaria de demonstrar a precisão com a qual posso calcular a variação, por exemplo, argumentar que um tamanho de amostra de 500 é suficiente. Também estou interessado em saber o tamanho mínimo da amostra que seria necessário para estimar a variação com uma precisão de .X%

Questões

Como posso calcular

  1. a precisão da minha estimativa da variância, dado um tamanho de amostra de ? de ?n = Nn=500n=N
  2. Como posso calcular o número mínimo de amostras necessárias para estimar a variação com uma precisão de ?X

Exemplo

Figura 1 estimativa de densidade do parâmetro com base nas 500 amostras.

insira a descrição da imagem aqui

Figura 2 Aqui está um gráfico do tamanho da amostra no eixo x vs. estimativas de variação no eixo y que calculei usando subamostras da amostra de 500. A idéia é que as estimativas convergam para a variação verdadeira à medida que n aumenta .

No entanto, as estimativas não são válidas independentemente, uma vez que as amostras usadas para estimar a variação para não são independentes uma da outra ou das amostras usadas para calcular a variação emn [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40.,80]

insira a descrição da imagem aqui

Abe
fonte
Lembre-se de que, se um componente de sua distribuição desconhecida for uma distribuição Cauchy, a variação será indefinida.
Mike Anderson
@ Mike Ou, de fato, um número infinito de outras distribuições.
Glen_b -Reinstate Monica

Respostas:

10

Para as variáveis ​​aleatórias iid , o estimador imparcial para a variância s 2 (aquela com denominador n - 1 ) tem variância:X1,,Xns2n-1

Vumar(s2)=σ4(2n-1+κn)

onde é o excesso de curtose da distribuição (referência: Wikipedia ). Então agora você precisa estimar a curtose da sua distribuição também. Você pode usar uma quantidade algumas vezes descrita como γ 2 (também da Wikipedia ):κγ2

γ2=μ4σ4-3

Eu suporia que, se você usar como uma estimativa para σ e γ 2 como uma estimativa para κ , obterá uma estimativa razoável para V a r ( s 2 ) , embora não haja garantia de que seja imparcial. Veja se ele combina com a variação entre os subconjuntos dos seus 500 pontos de dados razoavelmente e se não se preocupa mais com isso :)sσγ2κVumar(s2)

Erik P.
fonte
você tem uma referência de livro didático para o estimador imparcial de variância? Não sei para onde ir da Wikipedia para mais contexto.
Abe
Não tenho meu texto padrão Rice comigo aqui, então não posso verificar o número da página para você, mas tenho certeza de que está lá. A Wikipedia sugere que ele também deva ser mencionado em: Montgomery, DC e Runger, GC: Estatística Aplicada e Probabilidade para Engenheiros , página 201. John Wiley & Sons, Nova York, 1994.
Erik P.
Obrigado por sua ajuda com isso. Essa resposta foi muito útil e informativa para quantificar a incerteza de variância - apliquei a equação cerca de 10 vezes no último dia. calcular é fácil com a biblioteca: kumappumamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe
alguma chance de encontrar o número da página no texto Rice? Não encontro em Casella e Berger. Uma referência primária seria ainda melhor se você souber. A página da Wikipedia é notavelmente não referenciada.
Abe
Hummm ... parece que Rice também não tem a fórmula. Vou ficar de olho nisso, mas neste momento não tenho nenhuma referência.
Erik P.
15

Aprender uma variação é difícil.

É preciso um número (talvez surpreendentemente) grande de amostras para estimar bem uma variação em muitos casos. Abaixo, mostrarei o desenvolvimento do caso "canônico" de uma amostra normal de iid.

Suponha que , i = 1 , , n são variáveis ​​aleatórias independentes de N ( μ , σ 2 ) . Buscamos um intervalo de confiança de 100 ( 1 - α ) % para a variação, de modo que a largura do intervalo seja ρ s 2 , ou seja, a largura seja 100 ρ % da estimativa pontual. Por exemplo, se ρ = 1 / 2 , então a largura da IC é metade do valor da estimativa pontual, por exemplo, seYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , então o IC seria algo como ( 8 ,s2=10 , com uma largura de 5. Observe também a assimetria em torno da estimativa pontual. ( s 2 é o estimador imparcial da variação).(8,13)s2

O intervalo de confiança "(em vez de" a ") para é ( n - 1 ) s 2s2 onde χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
é oquantilβda distribuição qui-quadrado comn-1graus de liberdade. (Isso decorre do fato de que(n-1)s2/σ2é uma quantidade essencial em um cenário gaussiano.)χ(n1)2ββn1(n-1)s2/σ2

Queremos minimizar a largura para que então resta resolver n, de modo que ( n - 1 ) ( 1

eu(n)=(n-1)s2χ(n-1)2(α/2)-(n-1)s2χ(n-1)2(1-α/2)<ρs2,
n
(n-1)(1χ(n-1)2(α/2)-1χ(n-1)2(1-α/2))<ρ.

Para o caso de um intervalo de confiança de 99%, temos para ρ = 1 e N = 5321 para ρ = 0,1 . Neste último caso produz um intervalo que é ( ainda! ) 10% maior que a estimativa pontual da variância.n=65ρ=1n=5321ρ=0,1

Se o seu nível de confiança escolhido for inferior a 99%, o mesmo intervalo de largura será obtido para um valor mais baixo de . Mas, n ainda pode ser maior do que você imaginaria.nn

Um gráfico do tamanho da amostra versus a largura proporcional ρ mostra algo que parece assintoticamente linear em uma escala log-log; em outras palavras, um relacionamento semelhante à lei do poder. Podemos estimar o poder dessa relação poder-lei (grosseiramente) comonρ

α^registro0,1-registro1registro5321-registro65=-registro10registro523165-0,525,

que é, infelizmente, decididamente lento!


Esse é um caso "canônico" para lhe dar uma idéia de como proceder para o cálculo. Com base em seus gráficos, seus dados não parecem particularmente normais; em particular, existe o que parece ser uma distorção perceptível.

Mas isso deve lhe dar uma idéia aproximada do que esperar. Observe que, para responder à sua segunda pergunta acima, é necessário fixar primeiro um nível de confiança, definido em 99% no desenvolvimento acima para fins de demonstração.

cardeal
fonte
n|ρrhon=65ρ<1ρ1×s2ρ1%s2
@ Abe, atualizado e, com sorte, esclarecido no processo. Houve um erro de digitação particularmente ruim na versão anterior. Me desculpe por isso.
cardinal
uma resposta muito boa, mas eu escolhi a do @Erik porque é mais aplicável ao meu problema (como meu parâmetro não é normalmente distribuído).
Abe
@ Abe: Não é um problema. É para isso que serve a marca de seleção. Minha resposta foi (é) pretendida ser ilustrativa, mais do que qualquer coisa. Do que eu posso dizer, é que ainda parece ser o único que endereços tanto de suas perguntas, e será (assintoticamente) corrigir mesmo no cenário que descreve Erik. (+1 para ele há mais de um ano.) :)
cardeal
s(ss)s[euceu,vocêceu]
1

Eu focaria no SD e não na variância, pois ele está em uma escala que é mais facilmente interpretada.

Às vezes, as pessoas observam intervalos de confiança para DSs ou variações, mas o foco geralmente está nos meios.

s2/σ2σ2σσ2

Karl
fonte
(Esta resposta veio aqui depois de uma pergunta duplicado, enquadrado um pouco diferente, foi incorporada.)
whuber
1

A solução a seguir foi dada por Greenwood e Sandomire em um artigo da JASA de 1950.

X1,...,XnN(μ,σ2)σ

S=Eu=1n(XEu-X¯)2n-1,
Sσ0 0<você<1
Pr{S<(1-você)σ}=umaePr{S>(1+você)σ}=b,
γ=1-uma-b

Pr{(n-1)S2σ2<(n-1)(1-você)2}=uma
Pr{(n-1)S2σ2>(n-1)(1+você)2}=b.
(n-1)S2/σ2χn-12

γ=Fχ(n-1)2((n-1)(1+você)2)-Fχ(n-1)2((n-1)(1-você)2),

nγvocê

R código.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

você=10%γ=95%

Sample size n = 193
zen
fonte