A diferença entre controle e tratamento deve ser modelada explícita ou implicitamente?

9

Dada a seguinte configuração experimental:

Várias amostras são coletadas de um sujeito e cada amostra é tratada de várias maneiras (incluindo um tratamento de controle). O que é principalmente interessante é a diferença entre o controle e cada tratamento.

Eu posso pensar em dois modelos simples para esses dados. Com a amostra , tratamento , tratamento 0 sendo o controle, seja os dados, seja a linha de base da amostra , seja a diferença para o tratamento . O primeiro modelo analisa o controle e a diferença:j Y i j γ i i δ j jijYijγiiδjj

δ 0 = 0

Yij=γi+δj+ϵij
δ0=0

Enquanto o segundo modelo apenas olha para a diferença. Se pré- previamente então d i j = Y i j - Y i 0 d i j = δ j + ε i jdij

dij=YijYi0
dij=δj+εij

Minha pergunta é quais são as diferenças fundamentais entre essas duas configurações? Em particular, se os níveis são insignificantes em si mesmos e apenas a diferença importa, o primeiro modelo está fazendo muito e talvez esteja com pouca potência?

Rónán Daly
fonte
2
Posso dar uma resposta mais completa mais tarde, mas eu sugeriria que este artigo de Paul Allison seria interessante ( Allison, 1990 ).
Andy W
11
Editado para refletir o fato de que os erros nos diferentes modelos não são realmente os mesmos e, portanto, não devem usar os mesmos símbolos.
Rónán Daly 02/09/11

Respostas:

6

É provável que o esteja correlacionado no segundo modelo, mas não no primeiro.ϵij

No primeiro, esses termos representam erros de medição e desvios do modelo aditivo. Com um cuidado razoável - como aleatoriamente a sequência de medições - esses erros podem ser cometidos independentemente quando o modelo é preciso. De onde

dij=YijYi0=γi+δj+ϵij(γi+δ0+ϵi0)=δj+(ϵijϵi0).

(Observe que isso contradiz a última equação da pergunta, porque é errado assumir Fazer isso nos forçaria a admitir que são variáveis ​​aleatórias em vez de parâmetros, pelo menos uma vez que reconhecemos o possibilidade de erro de medição para o controle, o que levaria às mesmas conclusões abaixo.)ϵi0=0γi

Para , isso implicaj,k0jk

Cov(dij,dik)=Cov(ϵijϵi0,ϵikϵi0)=Var(ϵi0)0.

A correlação pode ser substancial. Para erros de iid, um cálculo semelhante mostra que é igual a 0,5. A menos que você esteja usando procedimentos que lidam com essa correlação explícita e corretamente, favoreça o primeiro modelo em vez do segundo.

whuber
fonte
Portanto, você assumiu que o primeiro modelo é o modelo verdadeiro e derivou uma propriedade indesejável do segundo modelo. Sabemos que todos os modelos estão errados, então esse resultado é realmente significativo?
Macro
11
@ Macro Por favor, leia minha resposta com mais cuidado: ela é criada para mostrar quais premissas são necessárias para justificar o primeiro modelo e distingui-lo do segundo, mas não contém nenhuma premissa de que qualquer modelo seja "verdadeiro". Por exemplo, observe a ressalva "quando o modelo for preciso". Até a palavra "preciso" foi escolhida com algum pensamento para evitar a má impressão de que existe um modelo "verdadeiro" ou "correto".
whuber
11
Estou um pouco confuso, o que é ? dik
Andy W
11
@Andy e índice dois tratamentos diferentes. Eu deveria ter escrito "Para ..."; Vou consertar esse erro de digitação. Obrigado por pegá-lo. k j , k 0jkj,k0
whuber
@whuber Existem referências que apóiam sua declaração, por exemplo, para convencer os revisores?
Daniel