Mostrando que 100 medidas para 5 sujeitos fornecem muito menos informações do que 5 medidas para 100 sujeitos

21

Em uma conferência, ouvi a seguinte declaração:

100 medições para 5 sujeitos fornecem muito menos informações do que 5 medições para 100 sujeitos.

É meio óbvio que isso é verdade, mas eu queria saber como alguém poderia provar isso matematicamente ... Eu acho que um modelo misto linear poderia ser usado. No entanto, eu não sei muito sobre a matemática usada para lmer4calculá- las (eu apenas corro para LMMs e bmrsGLMMs :) Você poderia me mostrar um exemplo em que isso é verdade? Eu preferiria uma resposta com algumas fórmulas, do que apenas algum código em R. Sinta-se livre para assumir uma configuração simples, como por exemplo modelo misto linear com interceptações e inclinações aleatórias normalmente distribuídas.

PS: uma resposta baseada em matemática que não envolva LMMs também seria aceitável. Pensei nos LMMs porque eles me pareciam a ferramenta natural para explicar por que menos medidas de mais assuntos são melhores do que mais medidas de poucos assuntos, mas posso estar errado.

DeltaIV
fonte
3
+1. Acho que a configuração mais simples seria considerar uma tarefa de estimar a média da população que cada sujeito tem sua própria média e cada medida desse assunto é distribuída como . Se tomarmos medições de cada um dos sujeitos, em seguida, o que é o óptimo forma de conjunto de e dada constante produto n m = N . a N ( μ , σ 2 a ) x N ( a , σ 2 ) n m n mμaN(μ,σa2)xN(a,σ2)nmnmnm=N
Ameba diz Reinstate Monica
"Ótimo" no sentido de minimizar a variação da média amostral dos adquiridos. N
Ameba diz Reinstate Monica
1
Sim. Mas, para sua pergunta, não precisamos nos preocupar em como estimar as variações; sua pergunta (ou seja, a citação em sua pergunta) é que acredito apenas em estimar a média global e parece óbvio que o melhor estimador é dado pela grande média ˉ x de todos os N = n m pontos da amostra. A questão então é: dados μ , σ 2 , σ 2 a , n e m , qual é a variação de ˉ x ? Se soubermos disso, seremos capazes de minimizá-lo em relação a n dado o n mμx¯N=nmμσ2σa2nmx¯n restrição. nm=N
Ameba diz Reinstate Monica
1
Não sei como derivar nada disso, mas concordo que parece óbvio: para estimar a variação do erro, seria melhor ter todas as medidas de de um único sujeito; e para estimar a variação de sujeitos (provavelmente?) seria melhor ter N sujeitos diferentes com 1 medida cada. Não é tão claro quanto à média, mas minha intuição me diz que ter N sujeitos com 1 medida cada seria melhor também. Gostaria de saber se isso é verdade ...NNN
ameba diz Reinstate Monica
2
Talvez algo assim: A variação da média da amostra por sujeito deve ser , onde o primeiro termo é a variação do sujeito e o segundo é a variação da estimativa da média de cada sujeito. Então a variância da média dos sujeitos em excesso (ou seja, média geral) será ( σ 2 a + σ 2 / n ) / m = σ 2 a / m + σ 2 / ( n m ) = σ 2 a / mσa2+σ2/n o que é minimizado quando m = N .
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
Ameba diz Reinstate Monica

Respostas:

25

A resposta curta é que sua conjectura é verdadeira quando e somente quando há uma correlação intra-classe positiva nos dados . Empiricamente falando, a maioria dos conjuntos de dados agrupados na maioria das vezes mostra uma correlação intra-classe positiva, o que significa que, na prática, sua conjectura é geralmente verdadeira. Mas se a correlação intra-classe for 0, os dois casos mencionados são igualmente informativos. E se a correlação intra-classe for negativa , será menos informativo fazer menos medições em mais assuntos; na verdade, preferimos (no que diz respeito à redução da variação da estimativa de parâmetros) fazer todas as nossas medições em um único assunto.

Estatisticamente, há duas perspectivas a partir do qual podemos pensar sobre isso: um de efeitos aleatórios (ou mista ) modelo , que você menciona na sua pergunta, ou um modelo marginal , o que acaba sendo um pouco mais informativo aqui.

Modelo de efeitos aleatórios (misto)

Digamos que temos um conjunto de assuntos dos quais fizemos m medições cada. Em seguida, um modelo de efeitos aleatórios simples do j th medição do i th sujeito pode ser y i j = β + u i + e i j , onde β é a intercepção fixo, u i é o efeito sujeito aleatório (com variância σ 2 u ), e i j é o termo de erro no nível de observação (com variação σ 2 enmji

yij=β+ui+eij,
βuiσu2eijσe2) e os dois últimos termos aleatórios são independentes.

Nesse modelo, representa a média da população e, com um conjunto de dados equilibrado (ou seja, um número igual de medidas de cada sujeito), nossa melhor estimativa é simplesmente a média da amostra. Portanto, se tomarmos "mais informações" para significar uma variação menor para essa estimativa, basicamente queremos saber como a variação da média da amostra depende de n e m . Com um pouco de álgebra, podemos descobrir que var ( 1βnm Examinando essa expressão, podemos ver quesemprequehouver qualquer variação de assunto(ou seja,σ2u>0), aumentar o número de sujeitos (n) tornará esses dois termos menores, enquanto aumenta o número de medições por sujeito (m) apenas tornará o segundo termo menor. (Para uma implicação prática disso na criação de projetos de replicação para vários sites, consulteesta postagem do blog que escrevi há pouco tempo.)

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
σu2>0nm

Agora você queria saber o que acontece quando aumentamos ou diminuímos ou n , mantendo constante o número total de observações. Portanto, para isso, consideramos n m uma constante, de modo que toda a expressão de variação se pareça com σ 2 umnnm que é o menor possível quandoné o maior possível (até um máximo den=nm, nesse casom=1, o que significa que fazemos uma única medição de cada sujeito).

σu2n+constant,
nn=nmm=1

Minha resposta curta se refere à correlação intra-classe, então onde isso se encaixa? Neste modelo simples de efeitos aleatórios, a correlação intra-classe é (esboço de uma derivaçãoaqui). Então, podemos escrever a equação de variância acima como var(1

ρ=σu2σu2+σe2
Isso realmente não adiciona nenhum insight ao que já vimos acima, mas nos faz pensar: uma vez que a correlação intra-classe é um coeficiente de correlação de boa-fé e coeficientes de correlação pode ser negativo, o que aconteceria (e o que isso significaria) se a correlação intra-classe fosse negativa?
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

No contexto do modelo de efeitos aleatórios, uma correlação intra-classe negativa realmente não faz sentido, porque implica que a variação de assunto é de alguma forma negativa (como podemos ver na equação ρ acima e como explicada aqui e aqui ) ... mas as variações não podem ser negativas! Mas isso não significa que o conceito de correlação intra-classe negativa não faça sentido; significa apenas que o modelo de efeitos aleatórios não tem como expressar esse conceito, que é uma falha do modelo, não do conceito. Para expressar esse conceito adequadamente, precisamos considerar o modelo marginal.σu2ρ

Modelo marginal

yij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
In words, this means that under the marginal model we simply consider ρ to be the expected correlation between two es from the same subject (we assume the correlation across subjects is 0). When ρé positivo, duas observações extraídas do mesmo assunto tendem a ser mais semelhantes (mais próximas), em média, do que duas observações extraídas aleatoriamente do conjunto de dados, ignorando o agrupamento devido aos sujeitos. Quandoρfor negativo , duas observações extraídas do mesmo assunto tendem a ser menos semelhantes (mais afastadas), em média, do que duas observações extraídas completamente ao acaso. (Mais informações sobre esta interpretação nas perguntas / respostas aqui .)

Então agora, quando olhamos para a equação para a variância da média da amostra no modelo marginal, temos

var(1nmEujyEuj)=var(1nmEujβ+eEuj)=1n2m2var(EujeEuj)=1n2m2(n(mσ2+(m2-m)ρσ2))=σ2(1+(m-1)ρ)nm=(ρn+1-ρnm)σ2,
que é a mesma expressão de variação que derivamos acima para o modelo de efeitos aleatórios, apenas com σe2+σvocê2=σ2, o que é consistente com nossa observação acima eEuj=vocêEu+eEuj. The advantage of this (statistically equivalent) perspective is that here we can think about a negative intra-class correlation without needing to invoke any weird concepts like a negative subject variance. Negative intra-class correlations just fit naturally in this framework.

(BTW, just a quick aside to point out that the second-to-last line of the derivation above implies that we must have ρ1/(m1), or else the whole equation is negative, but variances can't be negative! So there is a lower bound on the intra-class correlation that depends on how many measurements we have per cluster. For m=2 (i.e., we measure each subject twice), the intra-class correlation can go all the way down to ρ=-1; param=3 só pode descer para ρ=-1/2; e assim por diante. Fato engraçado!)

Então, finalmente, mais uma vez considerando o número total de observações nm para ser uma constante, vemos que a penúltima linha da derivação acima se parece com

(1+(m-1)ρ)×constante positiva.
Então quando ρ>0 0, tendo mo menor possível (para que tomemos menos medidas de mais sujeitos - no limite, 1 medida de cada sujeito) reduz a variação da estimativa o menor possível. Mas quandoρ<0 0, nós realmente queremos mser o maior possível (para que, no limite, tomemos todas asnmmedições de um único sujeito), a fim de tornar a variação o menor possível. E quandoρ=0 0, a variação da estimativa é apenas uma constante; portanto, nossa alocação de m e n não importa.
Jake Westfall
fonte
3
+1. Ótima resposta. Eu tenho que admitir que a segunda parte, sobreρ<0 0, é bastante pouco intuitivo: mesmo com um número total enorme (ou infinito) nm de observações, o melhor que podemos fazer é alocar todas as observações para um único sujeito, significando que o erro padrão da média será σvocêe, em princípio, não é possível reduzi-lo ainda mais. Isso é tão estranho! Verdadeβpermanece incognoscível, quaisquer que sejam os recursos que se ponha para medi-lo. Esta interpretação está correta?
Ameba diz Reinstate Monica
3
Ah não. O exposto acima não está correto porque, comom aumenta para o infinito, ρnão pode permanecer negativo e precisa se aproximar de zero (correspondendo à variação de assunto zero). Hmm. Essa correlação negativa é uma coisa engraçada: não é realmente um parâmetro do modelo generativo porque é limitado pelo tamanho da amostra (enquanto que normalmente seria de esperar que um modelo generativo pudesse gerar qualquer número de observações, quaisquer que fossem os parâmetros). Não sei bem qual é a maneira correta de pensar sobre isso.
Ameba diz Reinstate Monica
1
@DeltaIV O que é "a matriz de covariância dos efeitos aleatórios" neste caso? No modelo misto escrito por Jake acima, existe apenas um efeito aleatório e, portanto, não existe realmente uma "matriz de covariância", mas apenas um número:σvocê2. o queΣ você está se referindo?
Ameba diz Reinstate Monica
2
@DeltaIV Bem, o princípio geral é en.wikipedia.org/wiki/Inverse-variance_weighting , e a variação da média amostral de cada sujeito é dada porσvocê2+σe2/mEu(é por isso que Jake escreveu acima que os pesos precisam depender da estimativa da variação entre os sujeitos). A estimativa da variação dentro do sujeito é dada pela variação dos desvios dentro do sujeito, a estimativa da variação entre sujeitos é a variação dos meios dos sujeitos, e usando tudo o que se pode calcular os pesos. (Mas não tenho certeza se isso é 100% equivalente ao que o lmer fará.)
Ameba diz Reinstate Monica
1
Jake, sim, é exatamente esse código misso estava me incomodando. Se este for "tamanho da amostra", não poderá ser um parâmetro do sistema subjacente. Meu pensamento atual é que negativoρdeve realmente indicar que existe outro fator dentro do assunto que é ignorado / desconhecido para nós. Por exemplo, pode ser antes e depois de alguma intervenção e a diferença entre elas é tão grande que as medidas são negativamente correlacionadas. Mas isso significaria quemnão é realmente um tamanho de amostra, mas o número de níveis desse fator desconhecido, e que certamente pode ser codificado ...
Ameba diz Reinstate Monica