As amostras não aleatórias podem ser analisadas usando testes estatísticos padrão?

24

Muitos estudos clínicos são baseados em amostras não aleatórias. No entanto, a maioria dos testes padrão (por exemplo, testes t, ANOVA, regressão linear, regressão logística) são baseados no pressuposto de que as amostras contêm "números aleatórios". Os resultados são válidos se essas amostras não aleatórias foram analisadas por testes padrão? Obrigado.

KuJ
fonte

Respostas:

20

Existem dois modelos gerais para teste. O primeiro, baseado na suposição de amostragem aleatória de uma população, é geralmente chamado de "modelo populacional".

Por exemplo, para o teste t de duas amostras independentes, assumimos que os dois grupos que queremos comparar são amostras aleatórias das respectivas populações. Supondo que as distribuições das pontuações nos dois grupos sejam normalmente distribuídas na população, podemos derivar analiticamente a distribuição amostral da estatística de teste (isto é, para a estatística t). A idéia é que, se repetirmos esse processo (retirando aleatoriamente duas amostras das respectivas populações) um número infinito de vezes (é claro, na verdade não fazemos isso), obteríamos essa distribuição amostral para a estatística de teste.

Um modelo alternativo para teste é o "modelo de randomização". Aqui, não precisamos recorrer à amostragem aleatória. Em vez disso, obtemos uma distribuição aleatória através de permutações de nossas amostras.

Por exemplo, para o teste t, você tem suas duas amostras (não necessariamente obtidas por amostragem aleatória). Agora, se de fato não há diferença entre esses dois grupos, se uma pessoa em particular "pertence" ao grupo 1 ou ao grupo 2 é arbitrária. Então, o que podemos fazer é permutar a designação do grupo repetidamente, observando a distância que os meios dos dois grupos estão separados. Dessa forma, obtemos uma distribuição amostral empiricamente. Podemos então comparar até que ponto os dois meios estão separados nas amostras originais (antes de começarmos a reorganizar as participações no grupo) e se essa diferença for "extrema" (isto é, cair na cauda da distribuição de amostras derivadas empiricamente), então concluímos a participação nesse grupo não é arbitrária e há de fato uma diferença entre os dois grupos.

Em muitas situações, as duas abordagens realmente levam à mesma conclusão. De certa forma, a abordagem baseada no modelo populacional pode ser vista como uma aproximação ao teste de randomização. Curiosamente, Fisher foi quem propôs o modelo de randomização e sugeriu que ele fosse a base de nossas inferências (uma vez que a maioria das amostras não é obtida por amostragem aleatória).

Um bom artigo que descreve a diferença entre as duas abordagens é:

Ernst, MD (2004). Métodos de permutação: Uma base para inferência exata. Statistical Science, 19 (4), 676-685 (link) .

Outro artigo que fornece um bom resumo e sugere que a abordagem de randomização deve ser a base para nossas inferências:

Ludbrook, J. & Dudley, H. (1998). Por que os testes de permutação são superiores aos testes te F na pesquisa biomédica. American Statistician, 52 (2), 127-132 (link) .

EDIT: Devo acrescentar também que é comum calcular a mesma estatística de teste ao usar a abordagem de randomização como no modelo de população. Assim, por exemplo, para testar a diferença de médias entre dois grupos, calcula-se a estatística t usual para todas as permutações possíveis das associações ao grupo (produzindo a distribuição amostral empiricamente derivada sob a hipótese nula) e depois verifica-se quão extremo a estatística t da associação ao grupo original está nessa distribuição.

Wolfgang
fonte
8

Sua pergunta é muito boa, mas não tem uma resposta direta.

A maioria dos testes como esses mencionados se baseia na suposição de que uma amostra é uma amostra aleatória, porque é provável que uma amostra aleatória seja representativa da população amostrada. Se a suposição for inválida, qualquer interpretação dos resultados deve levar isso em consideração. Quando a amostra é muito não representativa da população, é provável que os resultados sejam enganosos. Quando a amostra é representativa, apesar de não ser aleatória, os resultados serão perfeitamente bons.

O próximo nível da pergunta é perguntar como alguém pode decidir se a não aleatoriedade é importante em um caso específico. Eu não posso responder essa ;-)

Michael Lew
fonte
5

Você faz uma pergunta muito geral, portanto a resposta não pode ser adequada para todos os casos. No entanto, eu posso esclarecer. Os testes estatísticos geralmente têm a ver com a distribuição observada versus uma distribuição hipotética (chamada distribuição nula ou hipótese nula; ou, em alguns casos, uma distribuição alternativa). As amostras podem não ser aleatórias, mas o teste que está sendo administrado é aplicado a algum valor obtido a partir das amostras. Se essa variável pode ter algumas propriedades estocásticas, sua distribuição é comparada a alguma distribuição alternativa. O que importa então é se a estatística de teste da amostra seria válida para alguma outra população de interesse e se as suposições relativas à distribuição alternativa ou nula são relevantes para a outra população de interesse.

Iterador
fonte