fundo
Eu tenho uma variável com uma distribuição desconhecida.
Eu tenho 500 amostras, mas gostaria de demonstrar a precisão com a qual posso calcular a variação, por exemplo, argumentar que um tamanho de amostra de 500 é suficiente. Também estou interessado em saber o tamanho mínimo da amostra que seria necessário para estimar a variação com uma precisão de .
Questões
Como posso calcular
- a precisão da minha estimativa da variância, dado um tamanho de amostra de ? de ?n = N
- Como posso calcular o número mínimo de amostras necessárias para estimar a variação com uma precisão de ?
Exemplo
Figura 1 estimativa de densidade do parâmetro com base nas 500 amostras.
Figura 2 Aqui está um gráfico do tamanho da amostra no eixo x vs. estimativas de variação no eixo y que calculei usando subamostras da amostra de 500. A idéia é que as estimativas convergam para a variação verdadeira à medida que n aumenta .
No entanto, as estimativas não são válidas independentemente, uma vez que as amostras usadas para estimar a variação para não são independentes uma da outra ou das amostras usadas para calcular a variação emn ∈ [ 20 , 40 , 80 ]
Respostas:
Para as variáveis aleatórias iid , o estimador imparcial para a variância s 2 (aquela com denominador n - 1 ) tem variância:X1, … , Xn s2 n - 1
onde é o excesso de curtose da distribuição (referência: Wikipedia ). Então agora você precisa estimar a curtose da sua distribuição também. Você pode usar uma quantidade algumas vezes descrita como γ 2 (também da Wikipedia ):κ γ2
Eu suporia que, se você usar como uma estimativa para σ e γ 2 como uma estimativa para κ , obterá uma estimativa razoável para V a r ( s 2 ) , embora não haja garantia de que seja imparcial. Veja se ele combina com a variação entre os subconjuntos dos seus 500 pontos de dados razoavelmente e se não se preocupa mais com isso :)s σ γ2 κ V a r ( s2)
fonte
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Aprender uma variação é difícil.
É preciso um número (talvez surpreendentemente) grande de amostras para estimar bem uma variação em muitos casos. Abaixo, mostrarei o desenvolvimento do caso "canônico" de uma amostra normal de iid.
Suponha que , i = 1 , … , n são variáveis aleatórias independentes de N ( μ , σ 2 ) . Buscamos um intervalo de confiança de 100 ( 1 - α ) % para a variação, de modo que a largura do intervalo seja ρ s 2 , ou seja, a largura seja 100 ρ % da estimativa pontual. Por exemplo, se ρ = 1 / 2 , então a largura da IC é metade do valor da estimativa pontual, por exemplo, seYEu i = 1 , … , n N( μ , σ2) 100 ( 1 - α ) % ρ s2 100 ρ % ρ = 1 / 2 , então o IC seria algo como ( 8 ,s2= 10 , com uma largura de 5. Observe também a assimetria em torno da estimativa pontual. ( s 2 é o estimador imparcial da variação).( 8 ,13 ) s2
O intervalo de confiança "(em vez de" a ") para é ( n - 1 ) s 2s2
onde χ 2
Queremos minimizar a largura para que então resta resolver n, de modo que ( n - 1 ) ( 1
Para o caso de um intervalo de confiança de 99%, temos para ρ = 1 e N = 5321 para ρ = 0,1 . Neste último caso produz um intervalo que é ( ainda! ) 10% maior que a estimativa pontual da variância.n = 65 ρ = 1 n = 5321 ρ = 0,1
Se o seu nível de confiança escolhido for inferior a 99%, o mesmo intervalo de largura será obtido para um valor mais baixo de . Mas, n ainda pode ser maior do que você imaginaria.n n
Um gráfico do tamanho da amostra versus a largura proporcional ρ mostra algo que parece assintoticamente linear em uma escala log-log; em outras palavras, um relacionamento semelhante à lei do poder. Podemos estimar o poder dessa relação poder-lei (grosseiramente) comon ρ
que é, infelizmente, decididamente lento!
Esse é um caso "canônico" para lhe dar uma idéia de como proceder para o cálculo. Com base em seus gráficos, seus dados não parecem particularmente normais; em particular, existe o que parece ser uma distorção perceptível.
Mas isso deve lhe dar uma idéia aproximada do que esperar. Observe que, para responder à sua segunda pergunta acima, é necessário fixar primeiro um nível de confiança, definido em 99% no desenvolvimento acima para fins de demonstração.
fonte
Eu focaria no SD e não na variância, pois ele está em uma escala que é mais facilmente interpretada.
Às vezes, as pessoas observam intervalos de confiança para DSs ou variações, mas o foco geralmente está nos meios.
fonte
A solução a seguir foi dada por Greenwood e Sandomire em um artigo da JASA de 1950.
R
código.fonte