No teste de hipóteses, uma pergunta comum é qual é a variação da população? Minha pergunta é como podemos saber a variação da população? Se soubéssemos toda a distribuição, poderíamos conhecer a média de toda a população. Então, qual é o objetivo do teste de hipóteses?
hypothesis-testing
variance
t-test
z-test
Biológico
fonte
fonte
Respostas:
Não tenho certeza de que esse problema realmente surja "frequentemente" fora do Stats 101 (introdução às estatísticas). Não tenho certeza se já vi isso. Por outro lado, apresentamos o material dessa maneira ao ministrar cursos introdutórios, porque fornece uma progressão lógica: você começa com uma situação simples em que há apenas um grupo e conhece a variação, depois avança para onde não sabe conhecer a variância e progredir para onde há dois grupos (mas com igual variância) etc.
Para abordar um ponto um pouco diferente, você pergunta por que nos preocuparíamos com o teste de hipóteses se soubéssemos a variação, pois, portanto, também devemos saber a média. A última parte é razoável, mas a primeira parte é um mal-entendido: a média que saberíamos seria a média sob a hipótese nula. É isso que estamos testando. Considere o exemplo de @ StephanKolassa das pontuações de QI. Sabemos que a média é 100 e o desvio padrão é 15; o que estamos testando é se nosso grupo (digamos, ruivos canhotos ou talvez estudantes de estatística introdutórios) difere disso.
fonte
Frequentemente, não sabemos a variação da população como tal - mas temos uma estimativa muito confiável de uma amostra diferente. Por exemplo, aqui está um exemplo para avaliar se o peso médio dos pingüins caiu, onde usamos a média de uma amostra pequena, mas a variação de uma amostra independente maior. Obviamente, isso pressupõe que a variação seja a mesma nas duas populações.
Um exemplo diferente pode ser a escala clássica de QI. Estes são normalizados para ter uma média de 100 e um desvio padrão de 15, usando amostras realmente grandes. Podemos então pegar uma amostra específica (digamos, 50 ruivas canhotos) e perguntar se o QI médio é significativamente maior que 100, usando 15 ^ 2 como uma variação "conhecida". Certamente, mais uma vez, isso levanta a questão de saber se a variação é realmente igual entre as duas amostras - afinal, já estamos testando se os meios são diferentes, então por que as variações são iguais?
Conclusão: suas preocupações são válidas e, geralmente, testes com momentos conhecidos servem apenas para fins didáticos. Nos cursos de estatística, eles geralmente são seguidos imediatamente com testes usando momentos estimados .
fonte
A única maneira de conhecer a variação da população é medir a população inteira.
No entanto, medir uma população inteira muitas vezes não é viável; requer recursos, incluindo dinheiro, ferramentas, pessoal e acesso. Por esse motivo, amostramos populações; que está medindo um subconjunto da população. O processo de amostragem deve ser planejado com cuidado e com o objetivo de criar uma população amostral representativa da população; dando duas considerações importantes - tamanho da amostra e técnica de amostragem.
Exemplo de brinquedo: você deseja estimar a variação de peso para a população adulta da Suécia. Existem cerca de 9,5 milhões de suecos, portanto não é provável que você possa medir todos eles. Portanto, você precisa medir uma população de amostra a partir da qual é possível estimar a verdadeira variação dentro da população.
Você sai para provar a população sueca. Para fazer isso, você fica no centro da cidade de Estocolmo e fica do lado de fora da popular fictícia cadeia de hambúrguer sueca Burger Kungen . De fato, está chovendo e faz frio (deve ser verão), então você fica dentro do restaurante. Aqui você pesa quatro pessoas.
As chances são de que sua amostra não reflita muito bem a população da Suécia. O que você tem é uma amostra de pessoas em Estocolmo, que estão em um restaurante de hambúrguer. Essa é uma técnica de amostragem ruim , porque é provável que incline o resultado, não fornecendo uma representação justa da população que você está tentando estimar. Além disso, você tem um pequeno tamanho de amostra, então você tem um alto risco de escolher quatro pessoas que estão nos extremos da população; muito leve ou muito pesado. Se você amostrou 1000 pessoas, é menos provável que cause um viés de amostragem; é muito menos provável escolher 1000 pessoas incomuns do que escolher quatro que são incomuns. Um tamanho de amostra maior forneceria, pelo menos, uma estimativa mais precisa da média e variação de peso entre os clientes do Burger Kungen.
O histograma ilustra o efeito da técnica de amostragem, a distribuição em cinza pode representar a população da Suécia que não come no Burger Kungen (média de 85 kg), enquanto o vermelho pode representar a população dos clientes da Burger Kungen (média de 100 kg) , e os traços azuis podem ser as quatro pessoas que você experimenta. A técnica correta de amostragem precisaria pesar a população de maneira justa e, nesse caso, ~ 75% da população, portanto 75% das amostras medidas, não devem ser clientes do Burger Kungen.
Esta é uma questão importante com muitas pesquisas. Por exemplo, as pessoas que provavelmente responderão a pesquisas de satisfação do cliente ou pesquisas de opinião nas eleições tendem a ser desproporcionalmente representadas por pessoas com visões extremas; pessoas com opiniões menos fortes tendem a ser mais reservadas para expressá-las.
O objetivo do teste de hipóteses é ( nem sempre ), por exemplo, testar se duas populações diferem uma da outra. Por exemplo, os clientes do Burger Kungen pesam mais do que os suecos que não comem no Burger Kungen? A capacidade de testar isso com precisão depende da técnica de amostragem adequada e do tamanho da amostra suficiente.
O código R para testar faz com que tudo isso aconteça:
Resultados:
fonte
Às vezes, a variação da população é definida a priori . Por exemplo, as pontuações do SAT são dimensionadas para que o desvio padrão seja 110 e os testes de QI sejam dimensionados para ter um desvio padrão de 15 .
fonte
O único exemplo realista em que consigo pensar quando a média é desconhecida, mas a variação é conhecida é quando há amostragem aleatória de pontos em uma hiperesfera (em qualquer dimensão) com um raio fixo e um centro desconhecido. Esse problema tem uma média desconhecida (centro da esfera), mas uma variação fixa (raio quadrado da esfera). Não conheço outros exemplos realistas em que haja uma média desconhecida, mas uma variação conhecida. (E para ser claro: apenas ter uma estimativa de variação externa de outros dados não é um exemplo de variação conhecida. Além disso, se você tiver essa estimativa de variação de outros dados, por que você também não tem uma estimativa média correspondente da mesma dados?)
Na minha opinião, os cursos estatísticos introdutórios que ensinam testes com uma média desconhecida e uma variação conhecida são um anacronismo e são equivocados como uma ferramenta de ensino moderna. Pedagogicamente, é muito melhor começar diretamente com o teste T para o caso de uma média e variância desconhecidas e tratar o teste z como uma aproximação assintótica a isso, válida quando o grau de liberdade é grande (ou não) nem se preocupe em ensinar o teste z). O número de situações em que haveria uma variação conhecida, mas a média desconhecida é muito pequena, e geralmente é enganoso para os alunos apresentar esse caso (insanamente raro).
fonte
Às vezes, nos problemas aplicados, há razões apresentadas pela física, economia etc. que nos dizem sobre variação e não têm incerteza. Outras vezes, a população pode ser finita e podemos saber algumas coisas sobre todos, mas precisamos amostrar e executar estatísticas para aprender o resto.
Geralmente, sua preocupação é bastante válida.
fonte