Testes como Z, te vários outros assumem que os dados são baseados em uma amostragem aleatória. Por quê?
Suponha que eu esteja fazendo pesquisa experimental, onde me importo muito mais com a validade interna do que com a externa. Portanto, se minha amostra for um pouco tendenciosa, tudo bem, pois aceitei não inferir a hipótese para toda a população. E o agrupamento ainda será aleatório, ou seja, eu escolherei por conveniência os participantes da amostra, mas os atribuirei aleatoriamente a diferentes grupos.
Por que não posso simplesmente ignorar essa suposição?
Respostas:
Se você não está fazendo nenhuma inferência para um grupo mais amplo que a sua amostra real, não há aplicação de testes estatísticos em primeiro lugar, e a questão do "viés" não surge. Nesse caso, você apenas calcularia estatísticas descritivas da sua amostra, conhecidas. Da mesma forma, não há questão de "validade" do modelo neste caso - você está apenas observando variáveis e registrando seus valores e descrições de aspectos desses valores.
Depois que você decidir ir além da sua amostra, fazer inferências sobre algum grupo maior, precisará de estatísticas e considerará questões como viés de amostragem etc. Nesse aplicativo, a amostragem aleatória se torna uma propriedade útil para ajudar a obter confiabilidade. inferências do grupo de interesse mais amplo. Se você não possui amostragem aleatória (e não conhece as probabilidades de suas amostras com base na população), torna-se difícil / impossível fazer inferências confiáveis sobre a população.
fonte
Em pesquisas científicas reais, é muito raro ter dados provenientes de amostragem aleatória verdadeira. Os dados são quase sempre amostras de conveniência. Isso afeta principalmente a qual população você pode generalizar. Dito isto, mesmo que fossem uma amostra de conveniência, eles vieram de algum lugar, você só precisa ser claro sobre onde e as limitações que isso implica. Se você realmente acredita que seus dados não são representativos de nada, seu estudo não valerá a pena em nenhum nível, mas isso provavelmente não é verdade 1 . Portanto, geralmente é razoável considerar suas amostras como extraídas de algum lugar e usar esses testes padrão, pelo menos em um sentido coberto ou qualificado.
Há uma filosofia diferente de teste, no entanto, que argumenta que devemos nos afastar dessas suposições e dos testes que delas dependem. Tukey foi um defensor disso. Em vez disso, a maioria das pesquisas experimentais é considerada (internamente) válida porque as unidades de estudo (por exemplo, pacientes) foram aleatoriamente designadas para os braços. Diante disso, você pode usar testes de permutação , que na maioria das vezes assumem que a randomização foi feita corretamente. O contra-argumento para se preocupar muito com isso é que os testes de permutação normalmente mostram a mesma coisa que os testes clássicos correspondentes e têm mais trabalho a ser realizado. Então, novamente, testes padrão podem ser aceitáveis.
1. Para mais informações, talvez seja útil ler minha resposta aqui: Identificando a população e as amostras em um estudo .
fonte
Testes como Z, t e vários outros são baseados em distribuições de amostragem conhecidas das estatísticas relevantes. Essas distribuições amostrais, como geralmente usadas, são definidas para a estatística calculada a partir de uma amostra aleatória.
Às vezes, pode ser possível conceber uma distribuição amostral relevante para amostragem não aleatória, mas, em geral, provavelmente não é possível.
fonte