O que significa variação combinada "realmente"?

15

Eu sou um noob em estatística, então vocês poderiam me ajudar aqui.

Minha pergunta é a seguinte: O que realmente significa variação combinada ?

Quando procuro uma fórmula para variação combinada na Internet, encontro muita literatura usando a seguinte fórmula (por exemplo, aqui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

Mas o que realmente calcula? Porque quando eu uso essa fórmula para calcular minha variação combinada, isso me dá uma resposta errada.

Por exemplo, considere estas "amostras principais":

2,2,2,2,2,8,8,8,8,8

A variação dessa amostra pai é e sua média é \ bar {x} _p = 5 .ˉ x p = 5Sp2=10x¯p=5

Agora, suponha que eu divida essa amostra pai em duas subamostras:

  1. A primeira subamostra é 2,2,2,2,2 com média x¯1=2 e variação S12=0 .
  2. A segunda subamostra é 8,8,8,8,8 com média x¯2=8 e variação S22=0 .

Agora, claramente, o uso da fórmula acima para calcular a variação combinada / pai dessas duas subamostras produzirá zero, porque S1=0 e S2=0 . Então, o que essa fórmula realmente calcula?

Por outro lado, após uma longa derivação, encontrei a fórmula que produz a variação combinada / pai correta:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

Na fórmula acima, e d_2 = \ bar {x_2} - \ bar {x} _p .d 2 = ¯ x 2 - ˉ x pd1=x1¯x¯pd2=x2¯-x¯p

Eu encontrei uma fórmula semelhante à minha, por exemplo, aqui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e também na Wikipedia. Embora eu deva admitir que eles não são exatamente iguais aos meus.

Então, novamente, o que realmente significa variação combinada? Não deveria significar a variação da amostra pai das duas subamostras? Ou eu estou completamente errado aqui?

Agradeço antecipadamente.


EDIT 1: Alguém diz que minhas duas subamostras acima são patológicas, pois têm variação zero. Bem, eu poderia dar um exemplo diferente. Considere esta amostra pai:

1 1,2,3,4,5,46.,47,48.,49.,50.

A variação dessa amostra pai é e sua média é .ˉ x p = 25,5Sp2=564.7x¯p=25,5

Agora, suponha que eu divida essa amostra pai em duas subamostras:

  1. A primeira subamostra é 1,2,3,4,5 com média e variância .S 2 1 =2,5x¯1=3S12=2.5
  2. A segunda subamostra é 46,47,48,49,50 com média e variância .S 2 2 =2,5x¯2=48S22=2.5

Agora, se você usar a "fórmula da literatura" para calcular a variação combinada, obterá 2,5, o que é completamente errado, porque a variação pai / combinada deve ser 564,7. Em vez disso, se você usar "minha fórmula", obterá a resposta correta.

Por favor, entenda, eu uso exemplos extremos aqui para mostrar às pessoas que a fórmula está realmente errada. Se eu usar "dados normais" que não apresentam muitas variações (casos extremos), os resultados dessas duas fórmulas serão muito semelhantes e as pessoas poderão descartar a diferença devido a um erro de arredondamento, não porque a fórmula em si seja errado.

Hanciong
fonte

Respostas:

13

Simplificando, a variação combinada é uma estimativa (imparcial) da variação dentro de cada amostra, sob a suposição / restrição de que essas variações são iguais.

Isso é explicado, motivado e analisado com alguns detalhes na entrada da Wikipedia para variação combinada .

Ele não estima a variação de uma nova "meta-amostra" formada concatenando as duas amostras individuais, como você supôs. Como você já descobriu, estimar isso requer uma fórmula completamente diferente.

Jake Westfall
fonte
A suposição de "igualdade" (ou seja, a mesma população realizou essas amostras) não é necessária em geral para definir o que é - "agrupado". Agrupado significa simplesmente média, omnibus (veja meu comentário para Tim).
ttnphns
@ttnphns Eu acho que a suposição de igualdade é necessária para dar à variação agrupada um significado conceitual (que o OP pediu) que vai além da descrição verbal da operação matemática que ela executa nas variações da amostra. Se as variações da população não forem assumidas iguais, não está claro do que poderíamos considerar a variação combinada como uma estimativa. É claro que poderíamos pensar nisso como uma amálgama das duas variações e deixar por isso mesmo, mas isso não é esclarecedor na ausência de qualquer motivação para querer combinar as variações em primeiro lugar.
Jake Westfall 13/09
Jake, não estou em desacordo com isso, dada a questão específica do OP, mas queria falar sobre a definição da palavra "agrupado", por isso disse "em geral".
ttnphns
@JakeWestfall Sua resposta é a melhor resposta até agora. Obrigado. Embora eu ainda não esteja claro sobre uma coisa. Segundo a Wikipedia, a variação combinada é um método para estimar a variação de várias populações diferentes quando a média de cada população pode ser diferente , mas pode-se supor que a variação de cada população seja a mesma .
precisa saber é o seguinte
@JakeWestfall: Então, se estamos calculando a variação combinada de duas populações diferentes com diferentes meios, o que realmente calcula? Porque a primeira variação está medindo a variação em relação à primeira média e a segunda variação está em relação à segunda média. Não sei que informações adicionais podem ser obtidas com o cálculo.
Hanciong 15/09/19
10

A variação combinada é usada para combinar variações de diferentes amostras, tomando sua média ponderada, para obter a variação "geral". O problema com o seu exemplo é que é um caso patológico, uma vez que cada uma das subamostras tem variação igual a zero. Esse caso patológico tem muito pouco em comum com os dados que costumamos encontrar, pois sempre há alguma variabilidade e, se não há variabilidade, não nos importamos com essas variáveis, pois elas não carregam informações. Você precisa observar que este é um método muito simples e existem maneiras mais complicadas de estimar a variação nas estruturas hierárquicas de dados que não são propensas a esses problemas.

Como no seu exemplo na edição, mostra que é importante declarar claramente suas suposições antes de iniciar a análise. Digamos que você tenha pontos de dados em grupos, nós o chamaríamos de , onde o ésimo índice em representa casos e ésimo índice representa índices de grupo. Existem vários cenários possíveis, você pode assumir que todos os pontos vêm da mesma distribuição (por simplicidade, vamos assumir a distribuição normal),k x 1 , 1 , x 2 , 1 , , x n - 1 , k , x n , k i x i , j jnkx1,1,x2,1,,xn1,k,xn,kixi,jj

(1)xi,jN(μ,σ2)

você pode assumir que cada uma das subamostras tem sua própria média

(2)xi,jN(μj,σ2)

ou, sua própria variação

(3)xi,jN(μ,σj2)

ou, cada um deles tem seus próprios parâmetros distintos

(4)xi,jN(μj,σj2)

Dependendo de suas suposições, um método específico pode ou não ser adequado para analisar os dados.

No primeiro caso, você não estaria interessado em estimar as variações dentro do grupo, pois você assumiria que todas são iguais. No entanto, se você agregasse a variação global das variações de grupo, obteria o mesmo resultado que o uso da variação combinada, pois a definição de variação é

Var(X)=1n1i(xiμ)2

e no estimador agrupado, primeiro você o multiplica por , depois soma e, finalmente, divide por .n 1 + n 2 - 1n1n1+n21

No segundo caso, os meios diferem, mas você tem uma variação comum. Este exemplo é o mais próximo do seu exemplo na edição. Nesse cenário, a variação combinada estimaria corretamente a variação global, enquanto que, se a variação estimada em todo o conjunto de dados, você obteria resultados incorretos, uma vez que não estava contabilizando o fato de os grupos terem meios diferentes.

No terceiro caso, não faz sentido estimar a variação "global", pois você assume que cada um dos grupos tem sua própria variação. Você ainda pode estar interessado em obter a estimativa para toda a população, mas, nesse caso, (a) calculando as variações individuais por grupo e (b) calculando a variação global de todo o conjunto de dados, pode fornecer resultados enganosos . Se você estiver lidando com esse tipo de dados, pense em usar um modelo mais complicado que explique a natureza hierárquica dos dados.

O quarto caso é o mais extremo e bastante semelhante ao anterior. Nesse cenário, se você deseja estimar a média e a variação globais, precisará de um modelo diferente e de um conjunto diferente de suposições. Nesse caso, você assumiria que seus dados são de estrutura hierárquica e, além das médias e variações dentro do grupo, existe uma variação comum de nível superior, por exemplo, assumindo o seguinte modelo

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

onde cada amostra tem seus próprios meios e variações que são eles próprios provenientes de distribuições comuns. Nesse caso, você usaria um modelo hierárquico que leva em consideração a variabilidade de nível inferior e superior. Para ler mais sobre esse tipo de modelo, você pode conferir o livro Bayesian Data Analysis de Gelman et al. e seu exemplo de oito escolas . No entanto, este é um modelo muito mais complicado do que o simples estimador de variância combinada.μj,σj2

Tim
fonte
Atualizei minha pergunta com um exemplo diferente. Nesse caso, a resposta da "fórmula da literatura" ainda está errada. Entendo que geralmente lidamos com "dados normais" onde não há casos extremos como o meu exemplo acima. No entanto, como matemáticos, você não deveria se preocupar com qual fórmula é realmente correta, em vez de qual fórmula se aplica no "problema comum / cotidiano"? Se alguma fórmula estiver fundamentalmente errada, ela deve ser descartada, especialmente se houver outra fórmula válida em todos os casos, patológica ou não.
Hanciong 12/09
Btw você disse que existem maneiras mais complicadas de estimar a variância. Você poderia me mostrar esses caminhos? Obrigado
Hanciong
2
Tim, a variação combinada não é a variação total da "amostra combinada". Nas estatísticas, "agrupado" significa média ponderada (quando falamos de quantidades médias, como variações, pesos sendo os n 's) ou apenas somadas (quando falamos de somas como dispersões, somas de quadrados). Por favor, reconsidere sua terminologia (escolha de palavras) na resposta.
ttnphns
11
Embora fora do tópico atual, aqui está uma pergunta interessante sobre o conceito de variância "comum". stats.stackexchange.com/q/208175/3277
ttnphns
11
Hanciong. Insisto que o conceito de "agrupamento" em geral e mesmo especificamente de "variação agrupada" não precisa, em geral, de qualquer suposição como: grupos vieram de populações com variações iguais. O pool é simplesmente uma mistura (média ponderada ou soma). É na ANOVA e em circunstâncias semelhantes que adicionamos essa suposição estatística.
ttnphns
1

O problema é que, se você concatenar as amostras e estimar sua variação, estará assumindo que elas são da mesma distribuição e, portanto, têm a mesma média. Mas em geral estamos interessados ​​em várias amostras com diferentes médias. Isso faz sentido?

ZHU
fonte
0

O caso de uso da variação agrupada é quando você tem duas amostras de distribuições que:

  • pode ter meios diferentes, mas
  • que você espera ter uma variação verdadeira igual .

nm

Nesse caso, tomar a variação combinada forneceria uma estimativa melhor da variação no erro de medição do que tomar a variação de uma amostra sozinha.

Misha
fonte
Obrigado pela sua resposta, mas ainda não entendo nada. Os primeiros dados mostram a variação em relação ao comprimento do nariz de Alice e os segundos dados mostram a variação em relação ao comprimento do nariz de Alice. Se você está calculando uma variação combinada desses dados, o que significa realmente? Como a primeira variância está medindo a variação em relação à de Alice e a segunda em relação à de Bob, que informações adicionais podemos obter calculando sua variação combinada? Eles são números completamente diferentes.
Hanciong 15/09/17
0

Através da variação combinada, não estamos tentando estimar a variação de uma amostra maior, usando amostras menores. Portanto, os dois exemplos que você deu não se referem exatamente à pergunta.

A variação combinada é necessária para obter uma estimativa melhor da variação da população, a partir de duas amostras que foram coletadas aleatoriamente nessa população e apresentar diferentes estimativas de variação.

Por exemplo, você está tentando avaliar a variação nos hábitos de fumar de homens em Londres. Você experimenta duas vezes, 300 homens de Londres. Você acaba tendo duas variações (provavelmente um pouco diferentes!). Agora, desde que você fez uma amostragem aleatória justa (o melhor para sua capacidade! Como a amostragem aleatória verdadeira é quase impossível), você tem todo o direito de dizer que ambas as variações são estimativas pontuais reais da variação da população (homens de Londres, neste caso).

Mas como isso é possível? ou seja, duas estimativas de pontos diferentes !! Assim, seguimos em frente e encontramos uma estimativa pontual comum que é a variação combinada. Nada mais é do que a média ponderada de duas estimativas pontuais, onde os pesos são o grau de liberdade associado a cada amostra.

Espero que isso esclareça.

Sameer Saurabh
fonte