Variância da estatística

12

O de Cohen dé uma das maneiras mais comuns de medir o tamanho de um efeito ( consulte a Wikipedia ). Simplesmente mede a distância entre duas médias em termos do desvio padrão combinado. Como podemos derivar a fórmula matemática da estimativa de variância do de Cohen d?

Dezembro de 2015 editar: relacionada a esta questão está a ideia de calcular intervalos de confiança em torno de d . Este artigo afirma que

σd2=n+n×+d22n+

onde n+ representa a soma dos dois tamanhos de amostra e n× é o produto dos dois tamanhos de amostra.

Como é derivada essa fórmula?

JRK
fonte
@ Clarinetist: É um pouco controverso editar a pergunta de outra pessoa para adicionar mais substância e mais perguntas a ela (em vez de melhorar a redação). Tomei a liberdade de aprovar sua edição (já que você ofereceu uma recompensa generosa e acho que sua edição melhora a pergunta), mas outros podem decidir reverter.
Ameba diz Reinstate Monica
1
@amoeba Sem problemas. Desde que a fórmula esteja lá para (que não existia antes) e fique claro que estamos procurando uma derivação matemática da fórmula, tudo bem. σd2
Clarinetist
Eu acho que o denominador da segunda fração deve ser . Veja minha resposta abaixo. 2(n+-2)

Respostas:

15

Observe que a expressão de variação na pergunta é uma aproximação. Hedges (1981) derivada da grande variação da amostra de e aproximação de uma configuração geral (isto é, múltiplas experiências / estudos), e minha resposta praticamente caminha através das derivações do papel.d

Primeiro, as suposições que utilizaremos são as seguintes:

Vamos supor que temos dois grupos de tratamento independentes, (tratamento) e C (controle). Seja Y T i e Y C j as pontuações / respostas / o que quer que seja do sujeito i no grupo T e do sujeito j no grupoTCYTEuYCjEuTj , respectivamente.C

Assumimos que as respostas são normalmente distribuídas e os grupos de tratamento e controle compartilham uma variação comum, ou seja,

YTiN(μT,σ2),i=1,nTYCjN(μC,σ2),j=1,nC

O tamanho do efeito que estamos interessados ​​em estimar em cada estudo é . O estimador do tamanho do efeito que usaremos é d= ˉ Y T- ˉ Y Cδ=μTμCσ ondeS2ké a variância da amostra imparcial para o grupo

d=Y¯TY¯C(nT1)ST2+(nC1)SC2nT+nC2
Sk2 . k

Vamos considerar as propriedades de amostra grande de d .

Em primeiro lugar, nota que: e (solta com a minha notação): ( n T - 1 ) S 2 T

Y¯TY¯CN(μTμC,σ2nT+nCnTnC)
(1)(nT1)ST2σ2(nT+nC2)=1nT+nC2(nT1)ST2σ21nT+nC2χnT12
(2)(nC1)SC2σ2(nT+nC2)=1nT+nC2(nC1)SC2σ21nT+nC2χnC12

Equations (1) and (2) lead to the fact that (again, being loose with my notation):

1σ2(nT1)ST2+(nC1)SC2nT+nC21nT+nC2χnT+nC22

Now, some clever algebra:

d=Y¯TY¯C(nT1)ST2+(nC1)SC2nT+nC2=(σnT+nCnTnC)1(Y¯TY¯C)(σnT+nCnTnC)1(nT1)ST2+(nC1)SC2nT+nC2=(Y¯TY¯C)(μTμC)σnT+nCnTnC+μTμCσnT+nCnTnC(nT+nCnTnC)1(nT1)ST2+(nC1)SC2σ2(nT+nC2)=nT+nCnTnC(θ+δnTnCnT+nCVν)
where θN(0,1), Vχν2, and ν=nT+nC2. Thus, d is nT+nCnTnC times a variable which follows a non-central t-distribution with nT+nC2 degrees of freedom and non-centrality parameter of δnTnCnT+nC.

Using the moment properties of the non-central t distribution, it follows that:

(3)Var(d)=(nT+nC2)(nT+nC4)(nT+nC)nTnC(1+δ2nTnCnT+nC)δ2b2
where
b=Γ(nT+nC22)nT+nC22Γ(nT+nC32)134(nT+nC2)1

So Equation (3) provides the exact large sample variance. Note that an unbiased estimator for δ is bd, with variance:

Var(bd)=b2(nT+nC2)(nT+nC4)(nT+nC)nTnC(1+δ2nTnCnT+nC)δ2

For large degrees of freedom (i.e. large nT+nC2), the variance of a non-central t variate with ν degrees of freedom and non-centrality parameter p can be approximated by 1+p22ν (Johnson, Kotz, Balakrishnan, 1995). Thus, we have:

Var(d)nT+nCnTnC(1+δ2(nTnCnT+nC)2(nT+nC2))=nT+nCnTnC+δ22(nT+nC2)

Plug in our estimator for δ and we're done.


fonte
Very, very nice derivation. Just a few questions: 1) could you clarify what the notation Y¯iTY¯iC means (I know it's something to do with difference of sample means, but how can they both have the same index?)? 2) could you clarify how the approximation for b is done (I don't need all of the details, a source is fine and maybe a brief explanation)? Otherwise, I'm quite pleased with this. (+1) This also agrees with the observation that I've made that d doesn't follow a normal distribution, contrary to the explanation in the linked article in the OP.
Clarinetist
@Clarinetist Thanks! 1) How can they have the same index? Typo, that's how! :P They're an artifact of my first draft of the answer. I'll fix that. 2) I pulled it from the Hedges paper -- don't know its derivation at the moment but will think about it some more.
I'm looking into the derivation now, but FYI, the numerator of b should be Γ(nT+nC22).
Clarinetist
Derivation provided for reference: math.stackexchange.com/questions/1564587/… . Turns out there's likely a sign error.
Clarinetist
@mike : very impressing answer. Thanks for taking the time to share it with us.
Denis Cousineau