Faz sentido calcular intervalos de confiança e testar hipóteses quando os dados de toda a população estão disponíveis? Na minha opinião, a resposta é não, pois podemos calcular com precisão os verdadeiros valores dos parâmetros. Mas então, qual é a proporção máxima de dados da população original que nos permite usar as técnicas mencionadas?
hypothesis-testing
confidence-interval
sample-size
large-data
population
Miroslav Sabo
fonte
fonte
Respostas:
A primeira pergunta é aquela que não tem uma resposta geralmente aceita. Meu ponto de vista é como o seu, mas outros argumentaram que uma população pode ser vista como uma amostra de uma "superpopulação", onde a natureza exata de uma superpopulação varia dependendo do contexto: por exemplo, um censo de todas as pessoas que vivem em um edifício pode ser visto como uma amostra de todas as pessoas que vivem em edifícios semelhantes; um censo da população dos EUA (não que alguém pudesse ser verdadeiramente completo) poderia ser visto como uma amostra de uma superpopulação de americanos que um dia poderia existir (ou algo assim). Eu acho que isso costuma ser uma desculpa para usar valores-p; muitos cientistas em campos substantivos não se sentem confortáveis se não obtiverem valor de p. (Mas essa é a minha opinião).
A segunda pergunta parece um pouco estranha de responder de uma maneira geral. Quando você obtém uma amostra que é (digamos) mais da metade da população?
Um problema maior será o viés. Voltando ao censo dos EUA, o problema não é simplesmente sentir falta de pessoas, mas que as pessoas que sentem falta não são uma amostra aleatória da população total; portanto, mesmo que o censo obtenha respostas de (para escolher um número) de 95% de todas as pessoas, se os 5% restantes forem bastante diferentes, os resultados serão tendenciosos.
fonte
Suponha que apenas 2 dos 12 membros do comitê sejam mulheres.
Ou pode ser tomada como uma estimativa da probabilidade de uma mulher ser selecionada para o comitê - uma propriedade do processo de seleção. Você pode colocar intervalos de confiança em torno dele, testar se é significativamente diferente de metade (ou outra hipótese nula relevante), etc. Talvez o processo precise ser alterado para torná-lo justo.
As duas visões, descritivas e inferenciais, não são contraditórias, mas bem distintas.
A resposta para a segunda pergunta é que faz sentido calcular intervalos de confiança para & testar hipóteses sobre um parâmetro populacional, mesmo que apenas um único indivíduo não seja amostrado. Observe que os ICs e testes precisam levar em consideração uma proporção considerável da população amostrada: veja correção finita da população .
fonte