Variações "médias"

10

Preciso obter algum tipo de "média" em uma lista de variações, mas tenho problemas para encontrar uma solução razoável. Há uma discussão interessante sobre as diferenças entre os três meios pitagóricos (aritmética, geométrica e harmônica) nesse segmento ; no entanto, ainda acho que nenhum deles seria um bom candidato. Alguma sugestão?

PS Algum contexto - essas variações são variações de amostra de indivíduos, cada um dos quais passou pelo mesmo projeto de experimento com aproximadamente o mesmo tamanho de amostra k . Em outras palavras, existem n variações de amostragem σ 2 1 , , ..., , correspondentes a esses sujeitos. Uma metanálise já foi realizada no nível da população. A razão pela qual eu preciso obter algum tipo de variação da amostra "média" ou "resumida" é que eu quero usá-lo para calcular um índice como o ICC após a metanálise.nknσ12 σ 2 n nσ22σn2n

PPS Para manter a discussão mais concreta, deixe-me explicar o problema com o seguinte exemplo em R:

library(metafor)
dat <- get(data(dat.konstantopoulos2011))
dat$district <- as.factor(dat$district)
dat$school <- as.factor(dat$school)

No conjunto de dados, há uma variação associada à pontuação de desempenho de cada escola:

str(dat)
Classes ‘escalc’ and 'data.frame':  56 obs. of  6 variables:
 $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ school  : Factor w/ 11 levels "1","2","3","4",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ year    : int  1976 1976 1976 1976 1989 1989 1989 1989 1994 1994 ...
 $ yi      : atomic  -0.18 -0.22 0.23 -0.3 0.13 -0.26 0.19 0.32 0.45 0.38 ...
 $ vi      : num  0.118 0.118 0.144 0.144 0.014 0.014 0.015 0.024 0.023 0.043 ...

Suponha que realizamos uma metanálise com um modelo hierárquico ou de efeitos mistos:

yij=a+αi+βj+ϵij

onde e são os efeitos aleatórios da escola e do ésimo distrito, respectivamente, e é o erro de medição com uma distribuição gaussiana conhecida . Este modelo pode ser analisado como abaixo:β j i j ϵ i j N ( 0 , v i j )αiβjijϵijN(0,vij)

(fm <- rma.mv(yi, vi, random = list(~1 | district, ~1 | school), data=dat)) 

renderizando as seguintes estimativas de variação para os dois componentes de variação:

Multivariate Meta-Analysis Model (k = 56; method: REML)
Variance Components: 

            estim    sqrt  nlvls  fixed    factor
sigma^2.1  0.0814  0.2853     11     no  district
sigma^2.2  0.0010  0.0308     11     no    school

As duas variações no resultado, sigma ^ 2,1 e sigma ^ 2,2, correspondem às duas variáveis ​​de efeitos aleatórios (distrito e escola).

Eu gostaria de calcular o ICC para o distrito, e é por isso que eu queria obter uma variação resumida em primeiro lugar para essas variações individuais, , do termo de medição . Como a variação total é ϵ i jvijϵij

Var(yij)=Var(αi+βj+ϵij)=σ12+σ22+vij

minha abordagem original (e simples) era usar apenas a média aritmética:

σ12σ12+σ22+mean(vij)

mas não tenho certeza se a média aritmética, , é apropriada nesse contexto.mean(vij)

pólo azul
fonte
4
Contexto é tudo aqui. Essas variações são teóricas (momentos de distribuição) ou variações de amostra? Se são variações de amostra, qual é a relação entre as amostras? Eles vêm da mesma população? Se sim, você tem disponível o tamanho de cada amostra? Se as amostras não provêm da mesma população, como você justifica a média das variações?
Alecos Papadopoulos
2
A modelagem hierárquica é uma resposta muito flexível. Este blog nas oito escolas é um bom começo. andrewgelman.com/2014/01/21/… Gelman et al., Bayesian Data Analysis é um ótimo local para obter mais informações.
Sycorax diz Restabelecer Monica
2
Possível duplicata de Como 'somar' um desvio padrão?
Firebug
1
Este é um problema XY? Deseja saber como obter variações médias ... Ou deseja saber como calcular um ICC para uma meta-análise?
Mark White
1
Nesse caso, este stats.stackexchange.com/questions/187197/… publica ajuda?
Mdewey 17/05

Respostas:

7

Expandindo os comentários recebidos, a resposta para a pergunta em seu título já é apresentada em Como 'somar' um desvio padrão? thread e lê da seguinte forma: para obter o desvio padrão médio, primeiro faça a média das variações e depois faça a raiz quadrada dele.

n×knk

Observe que as formulações modernas da ICC na verdade a definem em termos de modelos de efeitos mistos do tipo descrito acima, portanto, empregar esse modelo resolve vários problemas para você e é frequentemente a abordagem recomendada para a metanálise (mas observe que a ICC pode ser enganoso ).


Em relação à sua edição, se o seu modelo é

yij=a+αi+βj+ϵij

αiN(μα,σα2)βjN(μβ,σβ2)ϵijN(0,σϵ2)

ICCα=σα2σα2+σβ2+σϵ2

α,βϵα

(...) a correlação intraclasse será apenas a fração da variância total devido à causa que as observações da mesma classe têm em comum.

Portanto, o numerador na fórmula ICC é a variação do efeito do interesse e o denominador é a variação total. Observe que a média das variações não tem nada a ver com a variação total (soma das variações); portanto, a menos que eu entenda algo errado, não consigo entender por que a média é do seu interesse aqui.

Tim
fonte
Eu realmente aprecio a resposta e todos os comentários acima! Acabei de adicionar outro postscript no post original para esclarecer melhor o problema. Eu tenho que admitir que não estou tão familiarizado com a abordagem bayesiana. Se o problema puder ser melhor caracterizado sob o paradigma bayesiano, elabore um pouco mais com o exemplo de conjunto de dados que acabei de apresentar no postscript. Obrigado!
bluepole
@bluepole Você não precisa de um modelo bayesiano. O modelo tradicional de efeitos mistos funcionaria bem. Os modelos bayesianos são geralmente mais flexíveis para esses problemas.
Tim
Então, para o exemplo de conjunto de dados adicionado no meu post original, você acha que a média aritmética é razoável no contexto?
Bluepole 12/05/19
ϵijN(0,σij2)N(0,σϵ2)σij2σϵ2
ϵijN(0,σij2)σij2iσij2/ijσij2