Considere o seguinte experimento de biologia celular. Estamos comparando diferentes tratamentos de células cultivadas. Cada tratamento é replicado em vários poços (microtitulação) , indexados pela variável . Para medir a resposta ao tratamento no poço , é registrado um total de micrografias ou campos não sobrepostos . Então, para cada campo no poço , um total de células é identificado computacionalmente, pelo qual cada célula (no poço , campo ) é representada por um conjunto de pixels. Finalmente, associado a cada pixel está uma medida (derivada das intensidades de vários sinais de fluorescência registrados naquele pixel).
O problema é agregar todas as medições de pixel para produzir uma "medida razoável" do efeito do tratamento nas células tratadas com ele, bem como alguma medida da "propagação" de .
A abordagem padrão para esses problemas é usar a média como "a medida" e a variação (ou desvio padrão) como "o spread". Nesse caso, no entanto, existem várias maneiras não equivalentes pelas quais meios e variações podem ser calculados.
Por enquanto, os meios, em um extremo, pode-se simplesmente adicionar o em todos os pixels (desconsiderando sua distribuição nas células, campos e poços) e dividir essa soma pelo número total de pixels ( para o tratamento ):
No extremo oposto, podemos calcular a média em cada nível: primeiro calcule a média de para cada célula, depois calcule a média da para cada campo e assim por diante:
Em geral, essas duas expressões não serão iguais. Além disso, existem várias variações no meio. Pela minha conta, existem 8 maneiras de fazer isso (incluindo as duas acima); Eu listei tudo em toda a sua glória no final deste post. Por exemplo, pode-se calcular isso (número 6 na lista abaixo):
... onde é o número total de células (somadas a todos os campos de) bem . (A receita codificada por esta expressão diz: "calcule o valor médio de para cada célula, ou seja, ; então, para cada poço , calcule a média dessas médias sobre todas as células no poço independentemente da distribuição nos campos -, ou seja, ; e, finalmente, a média do em todos os poços , ")
Diante de todas essas diferentes maneiras de "usar médias" para medir o efeito do tratamento , a pergunta imediata é, obviamente, qual escolher? Uma versão mais nítida da pergunta seria: como determinar em quais cenários uma determinada variante seria apropriada / informativa / útil?
E, de maneira mais geral: existem armadilhas na computação de médias de médias (de médias ...)?
Obrigado!
(correções bem-vindas)
Respostas:
Esta não é uma resposta direta à sua pergunta ('Que tipo de média escolher'), mas uma recomendação para evitar o cálculo das médias:
Seu cenário parece um caso para modelos hierárquicos / multiníveis (MLM), pois os dados são perfeitamente aninhados. Você tem três níveis de efeitos aleatórios: pixels (Nível 1) aninhados nas células (L2), aninhados nos campos (L3), aninhados nos poços (L4). Os tratamentos devem ser tratados como efeitos fixos.
Você está interessado apenas no efeito do tratamento; o método MLM cuida das diferentes variações de cada nível e fornece também uma estimativa de quanto a variação é explicada por qual nível. Portanto, você não "perde" nenhuma variação ao tratar um valor médio como "a medida", mas estima o modelo no nível dos dados brutos.
Esse método, no entanto, exige um número suficiente de grupos para cada efeito aleatório (ou seja, pixels suficientes, células suficientes, campos suficientes, poços suficientes). Como você não está interessado em interações entre níveis, as recomendações gerais dizem algo como 10 a 30 unidades no mínimo (é claro, dependendo do cenário específico, etc .; veja, por exemplo, aqui ).
fonte