Teste para amostragem IID

16

Como você testaria ou verificaria se a amostragem é IID (independente e identicamente distribuída)? Note que eu não quero dizer Gaussiano e Distribuído Identicamente, apenas IID.

E a ideia que me vem à mente é dividir repetidamente a amostra em duas subamostras de tamanho igual, realizar o teste de Kolmogorov-Smirnov e verificar se a distribuição dos valores de p é uniforme.

Qualquer comentário sobre essa abordagem e qualquer sugestão são bem-vindas.

Esclarecimento após iniciar a recompensa: Estou procurando um teste geral que possa ser aplicado a dados que não sejam de séries temporais.

gui11aume
fonte
São dados de séries temporais?
Danas.zuokas
@ gui11aume você já tentou o teste do "globo ocular"? Ou seja, plote os dados e veja se parece IID.
Macro
Eu não tenho. Não sei ao certo o que você quer dizer: plote os valores na ordem em que eles vierem (possivelmente aleatórios)? E depois verificar a ausência de padrão marcante?
gui11aume
11
Você deu uma olhada no "teste de execução"? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent
11
Desculpe. Eu estava tendo em mente o seguinte teste de funcionamento: apprendre-en-ligne.net/random/run.html (mas isso está escrito em francês)
Stéphane Laurent

Respostas:

14

O que você conclui sobre se os dados são IID vem de informações externas, não dos dados em si. Você, como cientista, precisa determinar se é razoável assumir o IDI dos dados com base em como os dados foram coletados e outras informações externas.

Considere alguns exemplos.

Cenário 1: Geramos um conjunto de dados independentemente de uma única distribuição que é uma mistura de 2 normais.

Cenário 2: primeiro geramos uma variável de gênero a partir de uma distribuição binomial; depois, entre homens e mulheres, geramos dados independentemente de uma distribuição normal (mas os normais são diferentes para homens e mulheres); depois, excluímos ou perdemos as informações de gênero.

No cenário 1, os dados são IID e, no cenário 2, os dados claramente não são distribuídos de forma idêntica (distribuições diferentes para homens e mulheres), mas as 2 distribuições para os 2 cenários são indistinguíveis dos dados, você precisa saber sobre como os dados foi gerado para determinar a diferença.

Cenário 3: Colho uma amostra aleatória simples de pessoas que moram na minha cidade, administro uma pesquisa e analiso os resultados para fazer inferências sobre todas as pessoas da cidade.

Cenário 4: Colho uma amostra aleatória simples de pessoas que moram na minha cidade, administro uma pesquisa e analiso os resultados para fazer inferências sobre todas as pessoas no país.

No cenário 3, os sujeitos seriam considerados independentes (amostra aleatória simples da população de interesse), mas no cenário 4 eles não seriam considerados independentes porque foram selecionados de um pequeno subconjunto da população de interesse e a proximidade geográfica provavelmente imporia dependência. Mas os 2 conjuntos de dados são idênticos, é a maneira que pretendemos usar os dados que determinam se eles são independentes ou dependentes neste caso.

Portanto, não há como testar usando apenas os dados para mostrar que os dados são IDI, plotagens e outros diagnósticos podem mostrar alguns tipos de IDI, mas a falta deles não garante que os dados sejam IDI. Você também pode comparar com suposições específicas (o IDI normal é mais fácil de contestar do que apenas o IDI). Qualquer teste ainda é apenas uma regra, mas a falha em rejeitá-lo nunca prova que é um IDI.

É necessário tomar decisões sobre se você deseja assumir que as condições da IID são mantidas com base na ciência de como os dados foram coletados, como se relacionam com outras informações e como serão usados.

Editar% s:

Aqui está outro conjunto de exemplos para não idênticos.

Cenário 5: os dados são residuais de uma regressão em que há heterocedasticidade (as variações não são iguais).

Cenário 6: os dados são de uma mistura de normais com média 0, mas variâncias diferentes.

No cenário 5, podemos ver claramente que os resíduos não são distribuídos de forma idêntica se plotamos os resíduos contra valores ajustados ou outras variáveis ​​(preditores ou preditores de potencial), mas os próprios resíduos (sem as informações externas) seriam indistinguíveis do cenário 6.

Greg Snow
fonte
A primeira parte desta resposta, em particular, parece um pouco confusa (ou confusa) para mim. Ser iid é uma propriedade matemática bem definida de um conjunto finito de variáveis ​​aleatórias . Seus cenários 1 e 2 são idênticos se as variáveis ​​aleatórias no segundo caso forem obtidas "após a perda das informações de gênero". Eles são iid em ambos os casos!
cardeal
GregSnow Não concordo totalmente com sua afirmação. Pode ser que você saiba que os dados provêm de uma sequência de variáveis ​​aleatórias distribuídas de forma idêntica. Você não sabe exatamente qual modelo o gerou. Pode ser que eles sejam gerados independentemente ou alternadamente sejam provenientes de uma série temporal estacionária. Para decidir qual é o caso, suponha que você saiba que a distribuição idêntica é normal. Em seguida, ambos possibilidades enquadram na categoria de uma sequência estacionária e será iid se e somente todos os autocorrelações lag diferentes de zero são 0. É perfeitamente razoável de teste para ver se a correla
Michael R. Chernick
2
@ cardinal, você concorda que os dados no cenário 2 não são distribuídos de forma idêntica antes de perder as informações de gênero? Portanto, teríamos um caso em que eles não são idênticos, mas a única maneira de diferenciar é usar informações fora da variável que está sendo analisada (gênero neste caso). Sim, sendo IID é uma propriedade matemática bem definida, mas também é um número inteiro. Você pode testar se o ponto de dados 3. é um número inteiro armazenado como um número de ponto flutuante ou um valor contínuo que foi arredondado sem informações externas sobre de onde veio a partir de.
Greg Neve
2
ZXiXj,ijXi|ZXj|ZZZ
Mas tudo o que você diz acima usa informações sobre como os dados foram coletados / gerados, não apenas os dados em si. E mesmo se tivermos dados que apóiam que não há autocorrelação de séries temporais que não nos diz nada sobre correlação espacial ou outros tipos de não independência. Podemos realmente testar todos os tipos possíveis de dependência e obter resultados significativos? ou devemos usar informações sobre como os dados foram coletados para orientar quais testes têm mais probabilidade de serem significativos?
Greg Snow
5

Se os dados tiverem um índice ordenado, você poderá usar testes de ruído branco para séries temporais. Essencialmente, isso significa testar se as autocorrelações em todos os lags diferentes de zero são 0. Isso lida com a parte da independência. Acho que sua abordagem está tentando abordar principalmente a parte da suposição distribuída de forma idêntica. Eu acho que há alguns problemas com sua abordagem. Eu acho que você precisa de muitas divisões para obter valores-p suficientes para testar a uniformidade. Então, cada teste KS perde energia. Se você estiver usando divisões que se sobrepõem em partes do conjunto de dados, os testes serão correlacionados. Com um pequeno número de divisões, o teste de uniformidade carece de poder. Mas com muitas divisões, o teste de uniformidade pode ser poderoso, mas os testes KS não. Também parece que essa abordagem não ajudará a detectar dependência entre variáveis.

@ gu11aume Não sei ao certo o que você está pedindo com um teste geral para séries não temporais. Os dados espaciais fornecem uma forma de dados que não são de séries temporais. Lá, a função chamada variograma pode ser vista. Para seqüências unidimensionais, não vejo muita diferença entre as sequências ordenadas pelo tempo versus qualquer outra maneira de ordenar os dados. Uma função de autocorrelação ainda pode ser definida e testada. Quando você diz que deseja testar a independência na amostragem, acho que você tem uma ordem na qual as amostras são coletadas. Então, acho que todos os casos unidimensionais funcionam da mesma maneira.

Michael R. Chernick
fonte
2
(+1), pois era isso que eu estava pensando, mas Re: "Se os dados tiverem um índice ordenando, você poderá usar testes de ruído branco para séries temporais. Essencialmente, isso significa testar se as autocorrelações em todos os lags diferentes de zero são 0". - essa lógica só se aplica quando você está lidando com uma série temporal estacionária, certo? Caso contrário, você poderá obter resultados enganosos sobre as correlações atrasadas. Por exemplo, e se apenas a parte "posterior" da série temporal fosse correlacionada automaticamente?
Macro
11
@ Macro Eu pensei que era isso que você tinha em mente com base na sua pergunta para o OP. Mas não achei necessário aguardar a resposta dele para apontar isso. Isso se aplica quando você procura independência. Mas eu entendo o seu ponto. Na prática, você verifica apenas os primeiros k lags. Se a série fosse estacionária, as correlações diminuiriam com k, mas não para as séries não estacionárias. Portanto, pelo menos em teoria, você perderia a correlação geral de uma série não-estacionária.
Michael R. Chernick
2
cor(yt,ys)=f(s,t)f(s,t)|st|
Obrigado pela sua resposta Michael! Você está certo: caso os dados sejam uma série temporal, verificar a correlação automática é a melhor abordagem. Quanto às suas críticas à abordagem KS dividida, você também tem razão. Portanto, ainda estamos sem testes no caso geral (sem séries temporais) que parece.
gui11aume
2
A primeira autocorrelação diferente de zero está no atraso 60 e apenas em outros múltiplos de 60. Se a série temporal tiver comprimento 55, não podemos nem observar dois pontos 60 atrasados. Sowe não pode verificar se a correlação de atraso 60 é 0 ou não. Se o comprimento da série for 65, podemos estimar a correlação de atraso 60, mas com base em apenas 5 pares de atraso 60. Portanto, a variação da estimativa é grande e não teremos poder para detectar essa correlação diferente de zero.
Michael R. Chernick