Qual é a soma das variáveis ​​t ao quadrado?

20

Vamos ti ser desenhado iid de uma distribuição t de Student comn graus de liberdade, de tamanho moderado (digamos, menos de 100). Defina é distribuído quase como um qui-quadrado com graus de liberdade? Existe algo como o Teorema do Limite Central para a soma das variáveis ​​aleatórias ao quadrado?n

T=1ikti2
Tk
shabbychef
fonte
@suncoolsu: ele diz 'quase' ...
shabbychef
me desculpe. não vi isso.
suncoolsu

Respostas:

14

Respondendo à primeira pergunta.

Podemos começar pelo fato observado por mpiktas, que . E tente primeiro um passo mais simples - procure a distribuição de uma soma de duas variáveis ​​aleatórias distribuídas por F ( 1 , n ) . Isso pode ser feito calculando a convolução de duas variáveis ​​aleatórias ou calculando o produto de suas funções características.t2F(1,n)F(1,n)

O artigo do PCB Phillips mostra que meu primeiro palpite sobre "funções hipergeométricas [confluentes] envolvidas") foi realmente verdadeiro. Isso significa que a solução não será trivial e a força bruta é complicada, mas condição necessária para responder à sua pergunta. Portanto, como é fixo e você resume distribuições t, não podemos dizer com certeza qual será o resultado final. A menos que alguém tenha uma boa habilidade brincando com produtos de funções hipergeométricas confluentes.n

Dmitrij Celov
fonte
2
+1 para o link, não sabia que a função característica da distribuição F era tão complicada.
mpiktas
14

Não é nem uma aproximação aproximada. Para pequeno , a expectativa de T é igual a k nnT enquanto que a expectativa deχ2(k)é igual ak. Quandoké pequeno (menos de 10, digamos), os histogramas delog(T)e delog(χ2(k))nem têm a mesma forma, indicando queT demudança e reescalonamentoainda não funcionará.knn2χ2(k)kklog(T)log(χ2(k))T

Intuitivamente, para pequenos graus de liberdade, o de Student é pesado. A quadratura enfatiza esse peso. Portanto, as somas serão mais distorcidas - geralmente muito mais distorcidas - do que somas de normais ao quadrado (a distribuição do χ 2 ). Cálculos e simulações confirmam isso.tχ2


Ilustração (conforme solicitado)

alt text

Cada histograma representa uma simulação independente de 100.000 tentativas com os graus de liberdade especificados ( ) e somatórios ( k ), padronizados conforme descrito por @mpiktas. O valor de n = 9999 na linha inferior se aproxima do caso χ 2 . Assim, você pode comparar T a χ 2 pesquisando cada coluna.nkn=9999χ2Tχ2

Observe que a padronização não é possível para porque os momentos apropriados nem existem. A falta de estabilidade da forma (conforme você escaneia da esquerda para a direita em qualquer linha ou de cima para baixo em qualquer coluna) é ainda mais acentuada para n 4 .n<5n4

whuber
fonte
Eu tinha medo disso, mas pensei que a soma traria um pouco as caudas.
precisa saber é o seguinte
Também pensei em produzir algum tipo de experimento de Monte Carlo, tentando ver para que e k a aproximação poderia estar próxima o suficiente de χ 2 ( k ) , provavelmente k ( n ) que precisamos aqui. Mas para k pequeno e especialmente n , será de cauda muito pesada. Pode ser que você possa adicionar aqui esses dois histogramas, apenas para pessoas preguiçosas como eu? nkχ2(k)k(n)kn
Dmitrij Celov
@Dmitrij As simulações são rápidas (leva mais tempo para desenhar os histogramas), então eu adicionei 12 delas.
whuber
+1 para a figura. Ilustrações são sempre agradáveis ​​de se ver.
Dmitrij Celov
7

Eu vou responder a segunda pergunta. O teorema do limite central é para qualquer sequência iid, ao quadrado ou não ao quadrado. Portanto, no seu caso, se for suficientemente grande, temosk

TkE(t1)2kVar(t12)N(0,1)

onde e V a r ( t 2 1 ) são respectivamente a média e a variação da distribuição quadrada de Student t com n graus de liberdade. Observe que t 2 1 é distribuído como distribuição F com 1 e n graus de liberdade. Assim, podemos pegar as fórmulas para média e variância na página da Wikipedia . O resultado final é então:Et12Var(t12)nt121n

Tknn2k2n2(n1)(n2)2(n4)N(0,1)

mpiktas
fonte
1
O valor de T ^ 2 de um hotelling é: (f - d + 1) / fd T ^ 2 ∼ F (d, f + 1 - d)
DWin
1
T2TT2
F(1,n)+F(1,n), afraid of some hypergeometric things, but have to be known somewhere.
Dmitrij Celov
I believe it reduces to your situation when the variance matrix is diagonal. The off-diagonal elements from a sample should be near zero if the samples were from Normal, but might not be exactly zero if from t. Nonetheless, you asked for something approximate, so I think the answer is probably F under that proviso.
DWin
@DWin: it sure does look like a Hotelling with diagonal covariance matrix, but I am somewhat confused: from first principles, it does not seem like the sum of F(1,n) RVs would be distributed like an F...
shabbychef