Como você testaria ou verificaria se a amostragem é IID (independente e identicamente distribuída)? Note que eu não quero dizer Gaussiano e Distribuído Identicamente, apenas IID.
E a ideia que me vem à mente é dividir repetidamente a amostra em duas subamostras de tamanho igual, realizar o teste de Kolmogorov-Smirnov e verificar se a distribuição dos valores de p é uniforme.
Qualquer comentário sobre essa abordagem e qualquer sugestão são bem-vindas.
Esclarecimento após iniciar a recompensa: Estou procurando um teste geral que possa ser aplicado a dados que não sejam de séries temporais.
Respostas:
O que você conclui sobre se os dados são IID vem de informações externas, não dos dados em si. Você, como cientista, precisa determinar se é razoável assumir o IDI dos dados com base em como os dados foram coletados e outras informações externas.
Considere alguns exemplos.
Cenário 1: Geramos um conjunto de dados independentemente de uma única distribuição que é uma mistura de 2 normais.
Cenário 2: primeiro geramos uma variável de gênero a partir de uma distribuição binomial; depois, entre homens e mulheres, geramos dados independentemente de uma distribuição normal (mas os normais são diferentes para homens e mulheres); depois, excluímos ou perdemos as informações de gênero.
No cenário 1, os dados são IID e, no cenário 2, os dados claramente não são distribuídos de forma idêntica (distribuições diferentes para homens e mulheres), mas as 2 distribuições para os 2 cenários são indistinguíveis dos dados, você precisa saber sobre como os dados foi gerado para determinar a diferença.
Cenário 3: Colho uma amostra aleatória simples de pessoas que moram na minha cidade, administro uma pesquisa e analiso os resultados para fazer inferências sobre todas as pessoas da cidade.
Cenário 4: Colho uma amostra aleatória simples de pessoas que moram na minha cidade, administro uma pesquisa e analiso os resultados para fazer inferências sobre todas as pessoas no país.
No cenário 3, os sujeitos seriam considerados independentes (amostra aleatória simples da população de interesse), mas no cenário 4 eles não seriam considerados independentes porque foram selecionados de um pequeno subconjunto da população de interesse e a proximidade geográfica provavelmente imporia dependência. Mas os 2 conjuntos de dados são idênticos, é a maneira que pretendemos usar os dados que determinam se eles são independentes ou dependentes neste caso.
Portanto, não há como testar usando apenas os dados para mostrar que os dados são IDI, plotagens e outros diagnósticos podem mostrar alguns tipos de IDI, mas a falta deles não garante que os dados sejam IDI. Você também pode comparar com suposições específicas (o IDI normal é mais fácil de contestar do que apenas o IDI). Qualquer teste ainda é apenas uma regra, mas a falha em rejeitá-lo nunca prova que é um IDI.
É necessário tomar decisões sobre se você deseja assumir que as condições da IID são mantidas com base na ciência de como os dados foram coletados, como se relacionam com outras informações e como serão usados.
Editar% s:
Aqui está outro conjunto de exemplos para não idênticos.
Cenário 5: os dados são residuais de uma regressão em que há heterocedasticidade (as variações não são iguais).
Cenário 6: os dados são de uma mistura de normais com média 0, mas variâncias diferentes.
No cenário 5, podemos ver claramente que os resíduos não são distribuídos de forma idêntica se plotamos os resíduos contra valores ajustados ou outras variáveis (preditores ou preditores de potencial), mas os próprios resíduos (sem as informações externas) seriam indistinguíveis do cenário 6.
fonte
Se os dados tiverem um índice ordenado, você poderá usar testes de ruído branco para séries temporais. Essencialmente, isso significa testar se as autocorrelações em todos os lags diferentes de zero são 0. Isso lida com a parte da independência. Acho que sua abordagem está tentando abordar principalmente a parte da suposição distribuída de forma idêntica. Eu acho que há alguns problemas com sua abordagem. Eu acho que você precisa de muitas divisões para obter valores-p suficientes para testar a uniformidade. Então, cada teste KS perde energia. Se você estiver usando divisões que se sobrepõem em partes do conjunto de dados, os testes serão correlacionados. Com um pequeno número de divisões, o teste de uniformidade carece de poder. Mas com muitas divisões, o teste de uniformidade pode ser poderoso, mas os testes KS não. Também parece que essa abordagem não ajudará a detectar dependência entre variáveis.
@ gu11aume Não sei ao certo o que você está pedindo com um teste geral para séries não temporais. Os dados espaciais fornecem uma forma de dados que não são de séries temporais. Lá, a função chamada variograma pode ser vista. Para seqüências unidimensionais, não vejo muita diferença entre as sequências ordenadas pelo tempo versus qualquer outra maneira de ordenar os dados. Uma função de autocorrelação ainda pode ser definida e testada. Quando você diz que deseja testar a independência na amostragem, acho que você tem uma ordem na qual as amostras são coletadas. Então, acho que todos os casos unidimensionais funcionam da mesma maneira.
fonte