Teste de variância finita?

29

É possível testar a finitude (ou existência) da variação de uma variável aleatória dada uma amostra? Como nulo, {a variação existe e é finita} ou {a variação não existe / é infinita} seria aceitável. Filosoficamente (e computacionalmente), isso parece muito estranho, porque não deve haver diferença entre uma população sem variação finita e uma com variação muito grande (digamos> ); portanto, não espero que esse problema possa ser resolvido. resolvido.10400

Uma abordagem que me foi sugerida foi através do Teorema do Limite Central: assumindo que as amostras são iid e a população tem média finita, pode-se verificar, de alguma forma, se a média da amostra tem o erro padrão correto com o aumento do tamanho da amostra. Não tenho certeza se acredito que esse método funcionaria. (Em particular, não vejo como transformá-lo em um teste adequado.)

shabbychef
fonte
1
Relevante: stats.stackexchange.com/questions/94402/… Se houver a menor possibilidade de a variação não existir, é melhor usar um modelo que não assuma a variação finita. Nem pense em testá-lo.
precisa saber é o seguinte

Respostas:

13

Não, isso não é possível, porque uma amostra finita de tamanho não pode distinguir de forma confiável entre, digamos, uma população normal e uma população normal contaminada por uma quantidade de uma distribuição de Cauchy em que >> . (É claro que o primeiro possui variância finita e o segundo, variância infinita.) Portanto, qualquer teste totalmente não paramétrico terá poder arbitrariamente baixo contra essas alternativas.1 / N N nn1/NNn

whuber
fonte
4
Este é um ponto muito bom. no entanto, a maioria dos testes de hipóteses não possui poder arbitrariamente baixo contra alguma alternativa? por exemplo, um teste para média zero terá potência muito baixa quando for fornecida uma amostra de uma população com médio parapequeno. Ainda me pergunto se esse teste pode ser construído de maneira saudável, e muito menos se ele tem pouca energia em alguns casos. 0 < | £ |ϵ0 0<|ϵ|
Shabbychef
2
além disso, distribuições "poluídas" como a que você cita sempre pareciam estar em desacordo com a idéia de serem "distribuídas de forma idêntica". Talvez você concorde. Parece que dizer que amostras são extraídas de alguma distribuição sem declarar que a distribuição não faz sentido (bem, a parte 'independentemente' de iid é significativa).
shabbychef
2
(1) Você está certo sobre a baixa potência, mas o problema aqui (me parece) é que não há passo gradual de "finito" para "infinito": o problema parece não ter uma escala natural para nos dizer o que constitui uma partida "pequena" do nulo em comparação com uma partida "grande". (2) A forma distributiva é independente das considerações da IID. Não quero dizer que, digamos, 1% dos dados venham de um Cauchy e 99% de um Normal. Quero dizer que 100% dos dados provêm de uma distribuição quase normal, mas com cauchy caudas. Nesse sentido, os dados podem ser iid para uma distribuição contaminada.
whuber
2
Alguém leu este artigo? sciencedirect.com/science/article/pii/S0304407615002596
Christoph Hanck
3
@shabbychef se todas as observações surgirem exatamente do mesmo processo de mistura, elas serão identicamente distribuídas, cada uma como um empate na distribuição de mistura correspondente. Se algumas observações são necessariamente de um processo e outras são necessariamente de um processo diferente (as observações 1 a 990 são normais e as observações 991 a 1000 são Cauchy, por exemplo), elas não são identicamente distribuídas (mesmo que a amostra combinada possa ser indistinguível de uma mistura de 99% -1%). Essencialmente, isso se resume ao modelo do processo que você está usando.
Glen_b -Reinstala Monica
16

Você não pode ter certeza sem conhecer a distribuição. Mas há certas coisas que você pode fazer, como examinar o que pode ser chamado de "variação parcial", ou seja, se você tem uma amostra do tamanho , desenha a variação estimada nos primeiros termos, com variando de 2 a .n n NNnnN

Com uma variação finita da população, você espera que a variação parcial logo se estabeleça próxima à variação da população.

Com uma variação infinita da população, você vê saltos na variação parcial seguida por declínios lentos até que o próximo valor muito grande apareça na amostra.

Esta é uma ilustração com variáveis ​​aleatórias Normal e Cauchy (e uma escala de log) Variação parcial

Isso pode não ajudar se o formato da sua distribuição for tal que um tamanho de amostra muito maior que o seu seja necessário para identificá-lo com confiança suficiente, ou seja, onde valores muito grandes são razoavelmente (mas não extremamente) raros para uma distribuição com variação finita, ou são extremamente raros para uma distribuição com variação infinita. Para uma dada distribuição, haverá tamanhos de amostra com maior probabilidade de não revelar sua natureza; por outro lado, para um determinado tamanho de amostra, há distribuições com maior probabilidade de disfarçar sua natureza para esse tamanho de amostra.

Henry
fonte
4
+1 Eu gosto disso porque (a) um gráfico geralmente revela muito mais que um teste e (b) é prático. Estou um pouco preocupado com o aspecto arbitrário: sua aparência dependerá (fortemente, talvez) da ordem em que os dados são fornecidos. Quando a "variação parcial" é devida a um ou dois valores extremos e eles se aproximam do início, esse gráfico pode ser enganoso. Gostaria de saber se existe uma boa solução para esse problema.
whuber
1
+1 para obter ótimos gráficos. Realmente solidifica o conceito de "sem variação" na distribuição de Cauchy. @ whuber: Classificando os dados em todas as permutações possíveis, executando o teste para cada uma e fazendo algum tipo de média? Não é muito eficiente em termos computacionais, eu concordo :): mas talvez você possa escolher um punhado de permutações aleatórias?
naught101
2
@ naught101 A média de todas as permutações não lhe dirá nada, porque você obterá uma linha perfeitamente horizontal. Talvez eu entenda mal o que você quer dizer?
whuber
1
@whuber: Na verdade, eu quis dizer fazer a média de algum tipo de teste de convergência, não o gráfico em si. Mas eu vou conceder é uma muito vaga ideia, e isso é em grande parte porque eu não tenho idéia do que estou falando :)
naught101
7

Aqui está outra resposta. Suponha que você possa parametrizar o problema, algo como isto:

H0: Xt(df=3) versus H1: Xt(df=1).

Em seguida, você poderia fazer um teste de razão de verossimilhança comum de Neyman-Pearson de versus H 1 . Observe que é Cauchy (variação infinita) e é o usual do aluno com 3 graus de liberdade (variação finita) que possui PDF: H0H1 H 0 t f ( x | ν ) = Γ ( ν + 1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

para . Dados dados de amostra aleatória simples , o teste da razão de probabilidade rejeita quando onde é escolhido de forma que x 1 , x 2 , ... , x n H 0 Λ ( x ) = Π n i = 1 F ( x i | vmax = 1 )<x<x1,x2,,xnH0k0P(Λ(X)>k

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

É um pouco de álgebra simplificar

Λ(x)=(32)nEu=1n(1+xEu2/3)21+xEu2.

Então, novamente, obtemos uma amostra aleatória simples, calculamos e rejeitamos se for muito grande. Quão grande? Essa é a parte divertida! Vai ser difícil (impossível?) Obter um formulário fechado para o valor crítico, mas podemos aproximar o mais próximo possível, com certeza. Aqui está uma maneira de fazer isso, com R. Suponha e, para rir, digamos .H 0 Λ ( x ) α = 0,05 n = 13Λ(x)H0 0Λ(x)α=0,05n=13

Geramos um monte de amostras em , calculamos para cada amostra e, em seguida, encontramos o 95º quantil. ΛH0 0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

Acontece que (depois de alguns segundos) na minha máquina deve ser , que depois multiplicado por é . Certamente existem outras maneiras melhores de aproximar isso, mas estamos apenas brincando.( 12,8842 k1,9859(3/2)13k1,9859

Em resumo, quando o problema é parametrizável, você pode configurar um teste de hipóteses como faria em outros problemas, e é bem direto, exceto neste caso por algumas danças de sapateado no final. Observe que, pela nossa teoria, sabemos que o teste acima é o teste mais poderoso de versus (no nível ); portanto, não existe nada melhor que isso (conforme medido pela potência). H 1 αH0 0H1α

Isenções de responsabilidade: este é um exemplo de brinquedo. Não tenho nenhuma situação do mundo real em que fiquei curioso para saber se meus dados vieram de Cauchy em oposição ao t de Student com 3 df. E a pergunta original não dizia nada sobre problemas parametrizados, parecia estar procurando mais uma abordagem não paramétrica, que eu acho que foi bem abordada pelos outros. O objetivo desta resposta é para futuros leitores que tropeçam no título da pergunta e procuram a abordagem clássica do livro empoeirado.

PS : pode ser divertido jogar um pouco mais com o teste para testar , ou qualquer outra coisa, mas não fiz isso. Meu palpite é que ficaria muito feio muito rápido. Também pensei em testar diferentes tipos de distribuições estáveis , mas, novamente, foi apenas um pensamento.H1:ν1


fonte
2
estimar o em distribuições estáveis ​​é notoriamente difícil. α
Shabbychef
1
Você também pode testar , porque T-dist tem variação finita apenas para . ν > 2H1:ν2ν>2
probabilityislogic
2
Re: , eu não sabia que era notoriamente difícil, mas parece certo, obrigado. @ Probabilidade, você está certo, e a única razão pela qual escolhi 3 versus 1 foi porque significava menos frações. E, BTW, gostei mais da resposta da probabilidade do que da minha (+1). α
1
talvez eu tenha me lembrado errado do resultado: algo sobre a estimativa do índice de cauda quando estiver próximo de 2; o jornal é de Weron, eu acho. Além disso, testar contra uma alternativa com soma estável é um tipo de teste de normalidade! Tais testes normalmente rejeitam dado dados suficientes (real): ver por exemplo stats.stackexchange.com/questions/2492/...α = 2αα=2
shabbychef
6

Para testar uma hipótese tão vaga, é necessário calcular a média de todas as densidades com variação finita e todas as densidades com variação infinita. É provável que seja impossível, você basicamente precisa ser mais específico. Uma versão mais específica disso e tem duas hipóteses para uma amostra :DY1,Y2,...,YN

  1. H0 0:YEuNormumaeu(μ,σ)
  2. HUMA:YEuCumavocêchy(ν,τ)

Uma hipótese tem variação finita, uma tem variação infinita. Basta calcular as probabilidades:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

Onde são as probabilidades anteriores (geralmente 1)P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
E
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

Agora, normalmente, você não poderá usar anteriores impróprios aqui, mas como as duas densidades são do tipo "escala de localização", se você especificar o anterior não informativo padrão com o mesmo intervalo e , obtemos a integral do numerador:L1<μ,τ<U1L2<σ,τ<U2

(2π)-N2(você1-eu1)euog(você2eu2)eu2você2σ-(N+1)eu1você1exp(-N[s2-(Y¯-μ)2]2σ2)dμdσ

Onde e . E para o denominador integral:s2=N1i=1N(YiY¯)2Y¯=N-1Eu=1NYEu

π-N(você1-eu1)euog(você2eu2)eu2você2τ-(N+1)eu1você1Eu=1N(1+[YEu-ντ]2)-1dνdτ

E agora, tomando a proporção, descobrimos que as partes importantes das constantes de normalização são canceladas e obtemos:

P(D|H0 0,Eu)P(D|HUMA,Eu)=(π2)N2eu2você2σ-(N+1)eu1você1exp(-N[s2-(Y¯-μ)2]2σ2)dμdσeu2você2τ-(N+1)eu1você1Eu=1N(1+[YEu-ντ]2)-1dνdτ

E todas as integrais ainda são adequadas no limite para que possamos obter:

P(D|H0 0,Eu)P(D|HUMA,Eu)=(2π)-N20 0σ-(N+1)-exp(-N[s2-(Y¯-μ)2]2σ2)dμdσ0 0τ-(N+1)-Eu=1N(1+[YEu-ντ]2)-1dνdτ

A integral do denominador não pode ser calculada analiticamente, mas o numerador pode, e obtemos o numerador:

0 0σ-(N+1)-exp(-N[s2-(Y¯-μ)2]2σ2)dμdσ=2Nπ0 0σ-Nexp(-Ns22σ2)dσ

Agora faça a alteração das variáveis e você obtém uma integral gama:λ=σ-2dσ=-12λ-32dλ

-2Nπ0 0λN-12-1exp(-λNs22)dλ=2Nπ(2Ns2)N-12Γ(N-12)

E temos como forma analítica final as probabilidades de trabalho numérico:

P(H0 0|D,Eu)P(HUMA|D,Eu)=P(H0 0|Eu)P(HUMA|Eu)×πN+12N-N2s-(N-1)Γ(N-12)0 0τ-(N+1)-Eu=1N(1+[YEu-ντ]2)-1dνdτ

Portanto, isso pode ser pensado como um teste específico de variação finita versus infinita. Também poderíamos fazer uma distribuição T nessa estrutura para fazer outro teste (testar a hipótese de que os graus de liberdade são maiores que 2).

probabilityislogic
fonte
1
Quando você começou a integrar, introduziu um termo . Ele persiste através da resposta final. O que é isso? s2
whuber
2
@whuber - é o desvio padrão MLE, . Eu pensei que era a notação usual para desvio padrão, assim como é usual para a média - que tenho escrito incorretamente como , irá editar em conformidadess2=N-1Eu=1N(YEu-Y¯)2Y¯x¯
probabilityislogic
5

O contra-exemplo não é relevante para a pergunta. Você deseja testar a hipótese nula de que uma amostra de variáveis ​​aleatórias iid é retirada de uma distribuição com variação finita, em um determinado nível de significância . Eu recomendo um bom texto de referência como "Inferência Estatística", de Casella, para entender o uso e o limite do teste de hipóteses. Com relação à variação finita de ht, não tenho uma referência útil, mas o artigo a seguir aborda uma versão semelhante, porém mais forte, do problema, ou seja, se a cauda da distribuição seguir uma lei de energia.

DISTRIBUIÇÕES DO DIREITO DE PODER EM DADOS EMPÍRICOS SIAM Review 51 (2009): 661--703.

gappy
fonte
1

Uma abordagem que me foi sugerida foi através do Teorema do Limite Central.

Esta é uma pergunta antiga, mas quero propor uma maneira de usar o CLT para testar caudas grandes.

Seja nossa amostra. Se a amostra é uma realização iid de uma distribuição de cauda leve, o teorema do CLT se mantém. Daqui resulta que, se for um exemplo de bootstrap de , a distribuição de:X={X1,...,Xn}Y={Y1,...,Yn}X

Z=n×meuman(Y)-meuman(X)sd(Y),

também está próximo da função de distribuição N (0,1).

Agora, tudo o que precisamos fazer é executar um grande número de bootstraps e comparar a função de distribuição empírica dos Zs observados com o edf de um N (0,1). Uma maneira natural de fazer essa comparação é o teste de Kolmogorov – Smirnov .

As figuras a seguir ilustram a idéia principal. Nas duas figuras, cada linha colorida é construída a partir da realização de 1000 observações da distribuição específica, seguidas de 200 reamostragens de autoinicialização do tamanho 500 para a aproximação do Z ecdf. A linha contínua preta é o N (0,1) cdf.

insira a descrição da imagem aqui insira a descrição da imagem aqui

Mur1lo
fonte
2
Nenhuma quantidade de bootstrapping o levará a lugar algum contra o problema que levantei na minha resposta. Isso ocorre porque a grande maioria das amostras não fornece nenhuma evidência de cauda pesada - e o bootstrapping, por definição, usa apenas os dados da própria amostra.
whuber
1
@whuber Se os valores X forem obtidos de uma lei de potência simétrica, o CLT generalizado será aplicado e o teste KS detectará a diferença. Eu acredito que a sua observação não caracterizar corretamente o que você diz é um "passo gradual de 'finito' para 'infinito'"
Mur1lo
1
O CLT nunca "se aplica" a nenhuma amostra finita. É um teorema sobre um limite.
whuber
1
Quando digo que "se aplica", estou apenas dizendo que fornece uma boa aproximação se tivermos uma amostra grande.
Mur1lo
1
Infelizmente, a imprecisão entre "boa aproximação" e "grande" falha em capturar a lógica dos testes de hipóteses. Está implícita em sua declaração a possibilidade de coletar uma amostra cada vez maior até que você possa detectar a cauda pesada: mas não é assim que os testes de hipóteses geralmente funcionam. Na configuração padrão, você tem uma amostra específica e sua tarefa é testar se é de uma distribuição na hipótese nula. Nesse caso, o bootstrap não fará isso melhor do que qualquer teste mais direto.
whuber