O que exatamente significa 'agrupar dados'?

16

Eu pensei que 'pooling data' simplesmente significava combinar dados que anteriormente eram divididos em categorias ... essencialmente, ignorando as categorias e tornando o conjunto de dados um gigantesco 'pool' de dados. Eu acho que essa é uma pergunta mais sobre terminologia do que sobre aplicação de estatísticas.

Por exemplo: eu quero comparar dois sites e, em cada site, tenho dois tipos de ano (bom e ruim). Se eu quiser comparar os dois sites 'em geral' (ou seja, ignorando os tipos de ano), é correto dizer que estou agrupando os dados em cada site? Além disso, como vários anos de dados compreendem os tipos de ano bom e ruim, também é correto dizer que estou agrupando os dados entre os anos para alcançar o conjunto de dados de 'ano bom' e 'ano ruim' em cada site? Obrigado pela ajuda! Mog

Mog
fonte

Respostas:

13

Sim, seus exemplos estão corretos.

O Oxford English Dictionary define pool como:

piscina, v.

(puːl)

1.1 trans. Lançar uma ação ou fundo ordinário para ser distribuído de acordo com o contrato; combinar (capital ou juros) para o benefício comum; spec. de empresas ferroviárias concorrentes, etc .: compartilhar ou dividir (tráfego ou receitas).

Outro exemplo seria:

você mede os níveis sanguíneos de substância X em homens e mulheres. Você não vê diferenças estatísticas entre os dois grupos, então você os dados , ignorando o sexo do sujeito experimental.

Se é estatisticamente correto fazê-lo depende muito do caso específico.

nico
fonte
12

O pool pode se referir à combinação de dados, mas também à combinação de informações em vez de dados brutos. Um dos usos mais comuns do pool é estimar uma variação. Se acreditarmos que 2 populações têm a mesma variância, mas não necessariamente a mesma média, podemos calcular as 2 estimativas da variância a partir de amostras dos 2 grupos, em seguida, agrupá-las (obter uma média ponderada) para obter uma única estimativa de a variância comum. Não computamos uma estimativa única da variação a partir dos dados combinados porque, se as médias não forem iguais, isso aumentará a estimativa de variação.

Greg Snow
fonte
Obrigado @Greg. Para esclarecer (porque estou tentando combinar variações também na literatura), o que você está dizendo é que, para obter uma variação "média" para várias populações, posso obter uma média ponderada das variações calculadas? Como eu ponderaria essas variações? Cada população não é = 1?
Mog
Se os tamanhos das amostras forem iguais, a média simples tenderá a funcionar. Geralmente, atribuímos a cada ponto de dados o mesmo peso, a fórmula padrão é multiplicar cada variação pelos graus de liberdade (ou o número no denominador para esse grupo, n-1), somar todas as peças e dividir pela soma de os graus de liberdade (todos os n_i-1).
Greg Snow