Eu tenho dois grupos de dados. Cada um com uma distribuição diferente de várias variáveis. Estou tentando determinar se as distribuições desses dois grupos são diferentes de uma maneira estatisticamente significativa. Eu tenho os dados na forma bruta e agrupados de maneira mais fácil para lidar com categorias discretas com contagens de frequência em cada uma.
Quais testes / procedimentos / métodos devo usar para determinar se esses dois grupos são ou não significativamente diferentes e como faço isso no SAS ou R (ou Orange)?
distributions
statistical-significance
Jay Stevens
fonte
fonte
Respostas:
Acredito que isso exige um teste de duas amostras de Kolmogorov – Smirnov , ou algo semelhante. O teste Kolmogorov – Smirnov de duas amostras é baseado na comparação de diferenças nas funções de distribuição empírica (ECDF) de duas amostras, o que significa que é sensível à localização e ao formato das duas amostras. Também generaliza para um formulário multivariado.
Este teste é encontrado de várias formas em diferentes pacotes no R; portanto, se você é basicamente proficiente, tudo o que você precisa fazer é instalar um deles (por exemplo, fBasics ) e executá-lo nos dados de amostra.
fonte
proc npar1way
. Em R, além deks.test()
, há onortest
pacote que fornece vários outros testes de ajuste.Vou fazer a pergunta idiota do consultor. Por que você quer saber se essas distribuições são diferentes de maneira estatisticamente significativa?
Os dados que você está usando são amostras representativas de populações ou processos e você deseja avaliar a evidência de que essas populações ou processos diferem? Nesse caso, um teste estatístico é adequado para você. Mas isso parece uma pergunta estranha para mim.
Ou você está interessado em saber se realmente precisa se comportar como se essas populações ou processos fossem diferentes, independentemente da verdade? Então, será melhor determinar uma função de perda, idealmente uma que retorne unidades que sejam significativas para você, e prever a perda esperada quando você (a) trata as populações como diferentes e (b) as trata como iguais. Ou você pode escolher algum quantil da distribuição de perdas se quiser adotar uma posição mais ou menos conservadora.
fonte
Você pode estar interessado em aplicar métodos de distribuição relativa. Chame um grupo para o grupo de referência e o outro para o grupo de comparação. De maneira semelhante à construção de um gráfico de probabilidade-probabilidade, é possível construir um CDF / PDF relativo, que é uma razão das densidades. Essa densidade relativa pode ser usada para inferência. Se as distribuições forem idênticas, você espera uma distribuição relativa uniforme. Existem ferramentas, gráficas e estatísticas, para explorar e examinar desvios da uniformidade.
Um bom ponto de partida para entender melhor é a aplicação de métodos de distribuição relativa em R e o pacote reldist em R. Para obter detalhes, você precisará consultar o livro Métodos de distribuição relativa em ciências sociais, de Handcock e Morris. Há também um artigo dos autores abordando as técnicas relevantes.
fonte
Uma medida da diferença entre duas distribuições é o critério de "máxima discrepância média máxima", que basicamente mede a diferença entre as médias empíricas das amostras das duas distribuições em um espaço de reprodução do núcleo de Hilbert (RKHS). Consulte este documento "Um método do kernel para o problema de duas amostras" .
fonte
Não sei como usar SAS / R / Orange, mas parece que o tipo de teste que você precisa é um teste qui-quadrado .
fonte