Digamos que eu tenho duas amostras. Se eu quero dizer se eles são retirados de populações diferentes, posso fazer um teste t. Mas digamos que eu queira testar se as amostras são da mesma população. Como se faz isso? Ou seja, como faço para calcular a probabilidade estatística de que essas duas amostras foram extraídas da mesma população?
statistical-significance
user1566200
fonte
fonte
Respostas:
Os testes que comparam distribuições são testes de exclusão. Eles começam com a hipótese nula de que as duas populações são idênticas e depois tentam rejeitar essa hipótese. Nunca podemos provar que o nulo é verdadeiro, apenas rejeitá-lo, portanto esses testes não podem realmente ser usados para mostrar que duas amostras são da mesma população (ou populações idênticas).
Isso ocorre porque pode haver pequenas diferenças nas distribuições (o que significa que elas não são idênticas), mas tão pequenas que os testes não conseguem realmente encontrar a diferença.
Considere 2 distribuições, a primeira é uniforme de 0 a 1, a segunda é uma mistura de 2 uniformes; portanto, é 1 entre 0 e 0,999 e também 1 entre 9,999 e 10 (0 em outros lugares). Claramente, essas distribuições são diferentes (se a diferença é significativa é outra questão), mas se você tirar um tamanho de amostra de 50 de cada (total de 100), haverá mais de 90% de chance de você ver apenas valores entre 0 e 0,999 e não conseguir ver nenhuma diferença real.
Existem maneiras de fazer o que é chamado teste de equivalência, onde você pergunta se as 2 distribuições / populações são equivalentes, mas você precisa definir o que considera ser equivalente. Geralmente, alguma medida de diferença está dentro de um determinado intervalo, ou seja, a diferença nas 2 médias é inferior a 5% da média das 2 médias, ou a estatística KS está abaixo de um determinado limite, etc. pode então calcular um intervalo de confiança para a estatística da diferença (a diferença de média pode ser apenas o intervalo de confiança t, bootstrapping, simulação ou outros métodos podem ser necessários para outras estatísticas). Se todo o intervalo de confiança cair na "região de equivalência", consideraremos as 2 populações / distribuições como "equivalentes".
A parte difícil é descobrir qual deve ser a região de equivalência.
fonte
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Supondo que seus valores amostrais provêm de distribuições contínuas, sugiro o teste de Kolmogorov-Smirnov. Pode ser usado para testar se duas amostras são provenientes de distribuições diferentes (é assim que estou interpretando seu uso da população) com base nas distribuições empíricas associadas.
Diretamente da Wikipedia:
A função ks.test em R pode ser usada para este teste.
Embora seja verdade que o kstest não testa homogeneidade, eu argumentaria que, se você não conseguir rejeitar com um tamanho de amostra grande o suficiente (um teste de alta potência), poderá afirmar que as diferenças não são praticamente significativas. Você pode inferir que, se existirem diferenças, elas provavelmente não serão significativas (novamente, assumindo um tamanho de amostra grande). Você não pode concluir que eles são da mesma população que outros declararam corretamente. Tudo isso dito, normalmente eu apenas examinaria graficamente as duas amostras quanto à semelhança.
fonte
Você pode usar uma 'função shift' que verifica se as 2 distribuições diferem a cada decil. Embora seja tecnicamente um teste para determinar se são de populações diferentes e não iguais, se as distribuições não diferem em nenhum dos deciles, você pode estar razoavelmente certo de que são da mesma população, especialmente se o tamanho do grupo for grande.
Também gostaria de visualizar os 2 grupos: sobreposição de suas distribuições e ver se eles se assemelham, ou melhor ainda desenhar um par de mil amostras de bootstrap de cada grupo e traçar aqueles , pois isso lhe daria uma idéia se eles vêm do mesmo população, principalmente se a população em questão não for normalmente distribuída para a variável fornecida.
fonte