Eu sou um noob em estatística, então vocês poderiam me ajudar aqui.
Minha pergunta é a seguinte: O que realmente significa variação combinada ?
Quando procuro uma fórmula para variação combinada na Internet, encontro muita literatura usando a seguinte fórmula (por exemplo, aqui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Mas o que realmente calcula? Porque quando eu uso essa fórmula para calcular minha variação combinada, isso me dá uma resposta errada.
Por exemplo, considere estas "amostras principais":
A variação dessa amostra pai é e sua média é \ bar {x} _p = 5 .ˉ x p = 5
Agora, suponha que eu divida essa amostra pai em duas subamostras:
- A primeira subamostra é 2,2,2,2,2 com média e variação .
- A segunda subamostra é 8,8,8,8,8 com média e variação .
Agora, claramente, o uso da fórmula acima para calcular a variação combinada / pai dessas duas subamostras produzirá zero, porque e . Então, o que essa fórmula realmente calcula?
Por outro lado, após uma longa derivação, encontrei a fórmula que produz a variação combinada / pai correta:
Na fórmula acima, e d_2 = \ bar {x_2} - \ bar {x} _p .d 2 = ¯ x 2 - ˉ x p
Eu encontrei uma fórmula semelhante à minha, por exemplo, aqui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e também na Wikipedia. Embora eu deva admitir que eles não são exatamente iguais aos meus.
Então, novamente, o que realmente significa variação combinada? Não deveria significar a variação da amostra pai das duas subamostras? Ou eu estou completamente errado aqui?
Agradeço antecipadamente.
EDIT 1: Alguém diz que minhas duas subamostras acima são patológicas, pois têm variação zero. Bem, eu poderia dar um exemplo diferente. Considere esta amostra pai:
A variação dessa amostra pai é e sua média é .ˉ x p = 25,5
Agora, suponha que eu divida essa amostra pai em duas subamostras:
- A primeira subamostra é 1,2,3,4,5 com média e variância .S 2 1 =2,5
- A segunda subamostra é 46,47,48,49,50 com média e variância .S 2 2 =2,5
Agora, se você usar a "fórmula da literatura" para calcular a variação combinada, obterá 2,5, o que é completamente errado, porque a variação pai / combinada deve ser 564,7. Em vez disso, se você usar "minha fórmula", obterá a resposta correta.
Por favor, entenda, eu uso exemplos extremos aqui para mostrar às pessoas que a fórmula está realmente errada. Se eu usar "dados normais" que não apresentam muitas variações (casos extremos), os resultados dessas duas fórmulas serão muito semelhantes e as pessoas poderão descartar a diferença devido a um erro de arredondamento, não porque a fórmula em si seja errado.
Respostas:
Simplificando, a variação combinada é uma estimativa (imparcial) da variação dentro de cada amostra, sob a suposição / restrição de que essas variações são iguais.
Isso é explicado, motivado e analisado com alguns detalhes na entrada da Wikipedia para variação combinada .
Ele não estima a variação de uma nova "meta-amostra" formada concatenando as duas amostras individuais, como você supôs. Como você já descobriu, estimar isso requer uma fórmula completamente diferente.
fonte
A variação combinada é usada para combinar variações de diferentes amostras, tomando sua média ponderada, para obter a variação "geral". O problema com o seu exemplo é que é um caso patológico, uma vez que cada uma das subamostras tem variação igual a zero. Esse caso patológico tem muito pouco em comum com os dados que costumamos encontrar, pois sempre há alguma variabilidade e, se não há variabilidade, não nos importamos com essas variáveis, pois elas não carregam informações. Você precisa observar que este é um método muito simples e existem maneiras mais complicadas de estimar a variação nas estruturas hierárquicas de dados que não são propensas a esses problemas.
Como no seu exemplo na edição, mostra que é importante declarar claramente suas suposições antes de iniciar a análise. Digamos que você tenha pontos de dados em grupos, nós o chamaríamos de , onde o ésimo índice em representa casos e ésimo índice representa índices de grupo. Existem vários cenários possíveis, você pode assumir que todos os pontos vêm da mesma distribuição (por simplicidade, vamos assumir a distribuição normal),k x 1 , 1 , x 2 , 1 , … , x n - 1 , k , x n , k i x i , j jn k x1,1,x2,1,…,xn−1,k,xn,k i xi,j j
você pode assumir que cada uma das subamostras tem sua própria média
ou, sua própria variação
ou, cada um deles tem seus próprios parâmetros distintos
Dependendo de suas suposições, um método específico pode ou não ser adequado para analisar os dados.
No primeiro caso, você não estaria interessado em estimar as variações dentro do grupo, pois você assumiria que todas são iguais. No entanto, se você agregasse a variação global das variações de grupo, obteria o mesmo resultado que o uso da variação combinada, pois a definição de variação é
e no estimador agrupado, primeiro você o multiplica por , depois soma e, finalmente, divide por .n 1 + n 2 - 1n−1 n1+n2−1
No segundo caso, os meios diferem, mas você tem uma variação comum. Este exemplo é o mais próximo do seu exemplo na edição. Nesse cenário, a variação combinada estimaria corretamente a variação global, enquanto que, se a variação estimada em todo o conjunto de dados, você obteria resultados incorretos, uma vez que não estava contabilizando o fato de os grupos terem meios diferentes.
No terceiro caso, não faz sentido estimar a variação "global", pois você assume que cada um dos grupos tem sua própria variação. Você ainda pode estar interessado em obter a estimativa para toda a população, mas, nesse caso, (a) calculando as variações individuais por grupo e (b) calculando a variação global de todo o conjunto de dados, pode fornecer resultados enganosos . Se você estiver lidando com esse tipo de dados, pense em usar um modelo mais complicado que explique a natureza hierárquica dos dados.
O quarto caso é o mais extremo e bastante semelhante ao anterior. Nesse cenário, se você deseja estimar a média e a variação globais, precisará de um modelo diferente e de um conjunto diferente de suposições. Nesse caso, você assumiria que seus dados são de estrutura hierárquica e, além das médias e variações dentro do grupo, existe uma variação comum de nível superior, por exemplo, assumindo o seguinte modelo
onde cada amostra tem seus próprios meios e variações que são eles próprios provenientes de distribuições comuns. Nesse caso, você usaria um modelo hierárquico que leva em consideração a variabilidade de nível inferior e superior. Para ler mais sobre esse tipo de modelo, você pode conferir o livro Bayesian Data Analysis de Gelman et al. e seu exemplo de oito escolas . No entanto, este é um modelo muito mais complicado do que o simples estimador de variância combinada.μj,σ2j
fonte
O problema é que, se você concatenar as amostras e estimar sua variação, estará assumindo que elas são da mesma distribuição e, portanto, têm a mesma média. Mas em geral estamos interessados em várias amostras com diferentes médias. Isso faz sentido?
fonte
O caso de uso da variação agrupada é quando você tem duas amostras de distribuições que:
Nesse caso, tomar a variação combinada forneceria uma estimativa melhor da variação no erro de medição do que tomar a variação de uma amostra sozinha.
fonte
Através da variação combinada, não estamos tentando estimar a variação de uma amostra maior, usando amostras menores. Portanto, os dois exemplos que você deu não se referem exatamente à pergunta.
A variação combinada é necessária para obter uma estimativa melhor da variação da população, a partir de duas amostras que foram coletadas aleatoriamente nessa população e apresentar diferentes estimativas de variação.
Por exemplo, você está tentando avaliar a variação nos hábitos de fumar de homens em Londres. Você experimenta duas vezes, 300 homens de Londres. Você acaba tendo duas variações (provavelmente um pouco diferentes!). Agora, desde que você fez uma amostragem aleatória justa (o melhor para sua capacidade! Como a amostragem aleatória verdadeira é quase impossível), você tem todo o direito de dizer que ambas as variações são estimativas pontuais reais da variação da população (homens de Londres, neste caso).
Mas como isso é possível? ou seja, duas estimativas de pontos diferentes !! Assim, seguimos em frente e encontramos uma estimativa pontual comum que é a variação combinada. Nada mais é do que a média ponderada de duas estimativas pontuais, onde os pesos são o grau de liberdade associado a cada amostra.
Espero que isso esclareça.
fonte