É possível testar a finitude (ou existência) da variação de uma variável aleatória dada uma amostra? Como nulo, {a variação existe e é finita} ou {a variação não existe / é infinita} seria aceitável. Filosoficamente (e computacionalmente), isso parece muito estranho, porque não deve haver diferença entre uma população sem variação finita e uma com variação muito grande (digamos> ); portanto, não espero que esse problema possa ser resolvido. resolvido.
Uma abordagem que me foi sugerida foi através do Teorema do Limite Central: assumindo que as amostras são iid e a população tem média finita, pode-se verificar, de alguma forma, se a média da amostra tem o erro padrão correto com o aumento do tamanho da amostra. Não tenho certeza se acredito que esse método funcionaria. (Em particular, não vejo como transformá-lo em um teste adequado.)
fonte
Respostas:
Não, isso não é possível, porque uma amostra finita de tamanho não pode distinguir de forma confiável entre, digamos, uma população normal e uma população normal contaminada por uma quantidade de uma distribuição de Cauchy em que >> . (É claro que o primeiro possui variância finita e o segundo, variância infinita.) Portanto, qualquer teste totalmente não paramétrico terá poder arbitrariamente baixo contra essas alternativas.1 / N N nn 1/N N n
fonte
Você não pode ter certeza sem conhecer a distribuição. Mas há certas coisas que você pode fazer, como examinar o que pode ser chamado de "variação parcial", ou seja, se você tem uma amostra do tamanho , desenha a variação estimada nos primeiros termos, com variando de 2 a .n n NN n n N
Com uma variação finita da população, você espera que a variação parcial logo se estabeleça próxima à variação da população.
Com uma variação infinita da população, você vê saltos na variação parcial seguida por declínios lentos até que o próximo valor muito grande apareça na amostra.
Esta é uma ilustração com variáveis aleatórias Normal e Cauchy (e uma escala de log)
Isso pode não ajudar se o formato da sua distribuição for tal que um tamanho de amostra muito maior que o seu seja necessário para identificá-lo com confiança suficiente, ou seja, onde valores muito grandes são razoavelmente (mas não extremamente) raros para uma distribuição com variação finita, ou são extremamente raros para uma distribuição com variação infinita. Para uma dada distribuição, haverá tamanhos de amostra com maior probabilidade de não revelar sua natureza; por outro lado, para um determinado tamanho de amostra, há distribuições com maior probabilidade de disfarçar sua natureza para esse tamanho de amostra.
fonte
Aqui está outra resposta. Suponha que você possa parametrizar o problema, algo como isto:
Em seguida, você poderia fazer um teste de razão de verossimilhança comum de Neyman-Pearson de versus H 1 . Observe que é Cauchy (variação infinita) e é o usual do aluno com 3 graus de liberdade (variação finita) que possui PDF:H0 H1 H 0 t f ( x | ν ) = Γ ( ν + 1H1 H0 t
para . Dados dados de amostra aleatória simples , o teste da razão de probabilidade rejeita quando onde é escolhido de forma que x 1 , x 2 , ... , x n H 0 Λ ( x ) = Π n i = 1 F ( x i | vmax = 1 )−∞<x<∞ x1,x2,…,xn H0 k≥0P(Λ(X)>k
É um pouco de álgebra simplificar
Então, novamente, obtemos uma amostra aleatória simples, calculamos e rejeitamos se for muito grande. Quão grande? Essa é a parte divertida! Vai ser difícil (impossível?) Obter um formulário fechado para o valor crítico, mas podemos aproximar o mais próximo possível, com certeza. Aqui está uma maneira de fazer isso, com R. Suponha e, para rir, digamos .H 0 Λ ( x ) α = 0,05 n = 13Λ ( x ) H0 0 Λ ( x ) α = 0,05 n = 13
Geramos um monte de amostras em , calculamos para cada amostra e, em seguida, encontramos o 95º quantil. ΛH0 0 Λ
Acontece que (depois de alguns segundos) na minha máquina deve ser , que depois multiplicado por é . Certamente existem outras maneiras melhores de aproximar isso, mas estamos apenas brincando.( √≈ 12.8842 k≈1,9859( 3-√/ 2 )13 k ≈ 1,9859
Em resumo, quando o problema é parametrizável, você pode configurar um teste de hipóteses como faria em outros problemas, e é bem direto, exceto neste caso por algumas danças de sapateado no final. Observe que, pela nossa teoria, sabemos que o teste acima é o teste mais poderoso de versus (no nível ); portanto, não existe nada melhor que isso (conforme medido pela potência). H 1 αH0 0 H1 α
Isenções de responsabilidade: este é um exemplo de brinquedo. Não tenho nenhuma situação do mundo real em que fiquei curioso para saber se meus dados vieram de Cauchy em oposição ao t de Student com 3 df. E a pergunta original não dizia nada sobre problemas parametrizados, parecia estar procurando mais uma abordagem não paramétrica, que eu acho que foi bem abordada pelos outros. O objetivo desta resposta é para futuros leitores que tropeçam no título da pergunta e procuram a abordagem clássica do livro empoeirado.
PS : pode ser divertido jogar um pouco mais com o teste para testar , ou qualquer outra coisa, mas não fiz isso. Meu palpite é que ficaria muito feio muito rápido. Também pensei em testar diferentes tipos de distribuições estáveis , mas, novamente, foi apenas um pensamento.H1: ν≤ 1
fonte
Para testar uma hipótese tão vaga, é necessário calcular a média de todas as densidades com variação finita e todas as densidades com variação infinita. É provável que seja impossível, você basicamente precisa ser mais específico. Uma versão mais específica disso e tem duas hipóteses para uma amostra :D ≡ Y1, Y2, ... , YN
Uma hipótese tem variação finita, uma tem variação infinita. Basta calcular as probabilidades:
Onde são as probabilidades anteriores (geralmente 1)P(H0|I)P(HA|I)
Agora, normalmente, você não poderá usar anteriores impróprios aqui, mas como as duas densidades são do tipo "escala de localização", se você especificar o anterior não informativo padrão com o mesmo intervalo e , obtemos a integral do numerador:L1<μ,τ<U1 L2<σ,τ<U2
Onde e . E para o denominador integral:s2= N- 1∑Ni = 1( YEu−Y¯¯¯¯)2 Y¯¯¯¯= N- 1∑Ni = 1YEu
E agora, tomando a proporção, descobrimos que as partes importantes das constantes de normalização são canceladas e obtemos:
E todas as integrais ainda são adequadas no limite para que possamos obter:
A integral do denominador não pode ser calculada analiticamente, mas o numerador pode, e obtemos o numerador:
Agora faça a alteração das variáveis e você obtém uma integral gama:λ = σ- 2⟹dσ= - 12λ- 32dλ
E temos como forma analítica final as probabilidades de trabalho numérico:
Portanto, isso pode ser pensado como um teste específico de variação finita versus infinita. Também poderíamos fazer uma distribuição T nessa estrutura para fazer outro teste (testar a hipótese de que os graus de liberdade são maiores que 2).
fonte
O contra-exemplo não é relevante para a pergunta. Você deseja testar a hipótese nula de que uma amostra de variáveis aleatórias iid é retirada de uma distribuição com variação finita, em um determinado nível de significância . Eu recomendo um bom texto de referência como "Inferência Estatística", de Casella, para entender o uso e o limite do teste de hipóteses. Com relação à variação finita de ht, não tenho uma referência útil, mas o artigo a seguir aborda uma versão semelhante, porém mais forte, do problema, ou seja, se a cauda da distribuição seguir uma lei de energia.
DISTRIBUIÇÕES DO DIREITO DE PODER EM DADOS EMPÍRICOS SIAM Review 51 (2009): 661--703.
fonte
Esta é uma pergunta antiga, mas quero propor uma maneira de usar o CLT para testar caudas grandes.
Seja nossa amostra. Se a amostra é uma realização iid de uma distribuição de cauda leve, o teorema do CLT se mantém. Daqui resulta que, se for um exemplo de bootstrap de , a distribuição de:X= { X1, … , Xn} Y= { Y1, ... , Yn} X
também está próximo da função de distribuição N (0,1).
Agora, tudo o que precisamos fazer é executar um grande número de bootstraps e comparar a função de distribuição empírica dos Zs observados com o edf de um N (0,1). Uma maneira natural de fazer essa comparação é o teste de Kolmogorov – Smirnov .
As figuras a seguir ilustram a idéia principal. Nas duas figuras, cada linha colorida é construída a partir da realização de 1000 observações da distribuição específica, seguidas de 200 reamostragens de autoinicialização do tamanho 500 para a aproximação do Z ecdf. A linha contínua preta é o N (0,1) cdf.
fonte