Teste estatístico para determinar se duas amostras são retiradas da mesma população?

30

Digamos que eu tenho duas amostras. Se eu quero dizer se eles são retirados de populações diferentes, posso fazer um teste t. Mas digamos que eu queira testar se as amostras são da mesma população. Como se faz isso? Ou seja, como faço para calcular a probabilidade estatística de que essas duas amostras foram extraídas da mesma população?

user1566200
fonte
1
Por favor, explique - o mais quantitativamente possível - o que você quer dizer com "mesmo". Ajudaria a esclarecer o que você quer dizer com "condição" também.
whuber
Um teste como um Kolmogorov-Smirnov de duas amostras (não é a única possibilidade; com as suposições usuais, o teste t está testando a mesma coisa, como você observa) pode testar se as distribuições populacionais são diferentes (mas a falha em rejeitar não é '' significa que eles são realmente iguais). No entanto, nenhum teste pode dizer se duas distribuições que não são muito diferentes são realmente da mesma população , em vez de duas populações diferentes com distribuições semelhantes. Isso teria que vir de suposições ou outras investigações. ...
ctd
3
ctd ... Da mesma forma, os testes nem podem dizer que as distribuições são idênticas, pois podem diferir de maneiras triviais. Convém pesquisar em 'teste de equivalência' ou 'teste de equivalência', no qual você deve obter alguns hits aqui, ou no google.
Glen_b -Reinstala Monica

Respostas:

20

Os testes que comparam distribuições são testes de exclusão. Eles começam com a hipótese nula de que as duas populações são idênticas e depois tentam rejeitar essa hipótese. Nunca podemos provar que o nulo é verdadeiro, apenas rejeitá-lo, portanto esses testes não podem realmente ser usados ​​para mostrar que duas amostras são da mesma população (ou populações idênticas).

Isso ocorre porque pode haver pequenas diferenças nas distribuições (o que significa que elas não são idênticas), mas tão pequenas que os testes não conseguem realmente encontrar a diferença.

Considere 2 distribuições, a primeira é uniforme de 0 a 1, a segunda é uma mistura de 2 uniformes; portanto, é 1 entre 0 e 0,999 e também 1 entre 9,999 e 10 (0 em outros lugares). Claramente, essas distribuições são diferentes (se a diferença é significativa é outra questão), mas se você tirar um tamanho de amostra de 50 de cada (total de 100), haverá mais de 90% de chance de você ver apenas valores entre 0 e 0,999 e não conseguir ver nenhuma diferença real.

Existem maneiras de fazer o que é chamado teste de equivalência, onde você pergunta se as 2 distribuições / populações são equivalentes, mas você precisa definir o que considera ser equivalente. Geralmente, alguma medida de diferença está dentro de um determinado intervalo, ou seja, a diferença nas 2 médias é inferior a 5% da média das 2 médias, ou a estatística KS está abaixo de um determinado limite, etc. pode então calcular um intervalo de confiança para a estatística da diferença (a diferença de média pode ser apenas o intervalo de confiança t, bootstrapping, simulação ou outros métodos podem ser necessários para outras estatísticas). Se todo o intervalo de confiança cair na "região de equivalência", consideraremos as 2 populações / distribuições como "equivalentes".

A parte difícil é descobrir qual deve ser a região de equivalência.

Greg Snow
fonte
2
Um teste de hipótese nula nunca pode fornecer evidência para a hipótese nula, é verdade. A seleção de modelos, bayesiana ou baseada em algum "critério" (AIC, BIC), pode indicar que um modelo nulo (distribuições idênticas) é uma descrição melhor dos dados do que um modelo alternativo (distribuição diferente). Tudo isso sob um monte de suposições, é claro.
A. Donda
6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Supondo que seus valores amostrais provêm de distribuições contínuas, sugiro o teste de Kolmogorov-Smirnov. Pode ser usado para testar se duas amostras são provenientes de distribuições diferentes (é assim que estou interpretando seu uso da população) com base nas distribuições empíricas associadas.

Diretamente da Wikipedia:

A distribuição nula dessa estatística é calculada sob a hipótese nula de que as amostras são retiradas da mesma distribuição (no caso de duas amostras)

A função ks.test em R pode ser usada para este teste.

Embora seja verdade que o kstest não testa homogeneidade, eu argumentaria que, se você não conseguir rejeitar com um tamanho de amostra grande o suficiente (um teste de alta potência), poderá afirmar que as diferenças não são praticamente significativas. Você pode inferir que, se existirem diferenças, elas provavelmente não serão significativas (novamente, assumindo um tamanho de amostra grande). Você não pode concluir que eles são da mesma população que outros declararam corretamente. Tudo isso dito, normalmente eu apenas examinaria graficamente as duas amostras quanto à semelhança.

Minador
fonte
6
Duvido que o teste KS possa ser usado para mostrar equivalência distributiva.
Michael M
@MichaelMayer é exatamente isso. O OP está interessado em um teste de homogeneidade ... que tem muitas questões metodológicas subjacentes. KS para heterogeneidade também tem seus problemas: praticamente, ele irá rejeitar em grandes amostras, independentemente de populações são praticamente idênticos em todos os aspectos. Isso apenas mostra que os testes e, consequentemente, os valores de p, são mais bem concebidos como medidas do tamanho da amostra do que a significância estatística.
Adamo
@AdamO Sim, mas se você tiver grandes amostras e não conseguir rejeitar, ficaria confiante de que as populações são praticamente idênticas. Até onde eu sei, não existe uma teoria para sustentar isso, mas por experiência própria, saber que o KS para heterogeneidade pode detectar pequenas diferenças com tamanho de amostra grande pode permitir que você use um teste de amostra grande com falha como uma declaração de fato de praticamente populações idênticas. Minha resposta responde à pergunta "calcula a probabilidade estatística de que essas duas amostras foram extraídas da mesma população"? Certamente não.
Underminer
O que posso fazer se meus pontos forem bidimensionais ? Ou seja, tenho duas amostras de pontos bidimensionais e quero saber se elas vêm de distribuições distintas.
Becko
O teste KS funciona apenas em uma distribuição predefinida, não em uma distribuição com parâmetros estimados a partir de dados.
qwr 5/04
2

Você pode usar uma 'função shift' que verifica se as 2 distribuições diferem a cada decil. Embora seja tecnicamente um teste para determinar se são de populações diferentes e não iguais, se as distribuições não diferem em nenhum dos deciles, você pode estar razoavelmente certo de que são da mesma população, especialmente se o tamanho do grupo for grande.

Também gostaria de visualizar os 2 grupos: sobreposição de suas distribuições e ver se eles se assemelham, ou melhor ainda desenhar um par de mil amostras de bootstrap de cada grupo e traçar aqueles , pois isso lhe daria uma idéia se eles vêm do mesmo população, principalmente se a população em questão não for normalmente distribuída para a variável fornecida.

Richie
fonte