Por que continuar ensinando e usando o teste de hipóteses (com todos os seus conceitos difíceis e que estão entre os pecados mais estatísticos) para problemas em que existe um estimador de intervalo (confiança, autoinicialização, credibilidade ou qualquer outra coisa)? Qual é a melhor explicação (se houver) a ser dada aos alunos? Apenas tradição? As vistas serão muito bem-vindas.
hypothesis-testing
confidence-interval
teaching
Washington S. Silva
fonte
fonte
Respostas:
Esta é minha opinião pessoal, por isso não tenho certeza se ela se qualifica adequadamente como resposta.
Por que devemos ensinar testes de hipóteses?
Uma grande razão, em suma, é que, com toda a probabilidade, no tempo que você leva para ler esta frase, centenas, senão milhares (ou milhões) de testes de hipóteses foram conduzidos dentro de um raio de 10 pés de onde você está sentado.
Seu telefone celular está definitivamente usando um teste de razão de verossimilhança para decidir se está ou não ao alcance de uma estação base. O hardware WiFi do seu laptop está fazendo o mesmo na comunicação com o seu roteador.
O micro-ondas usado para reaquecer automaticamente a pizza de dois dias usou um teste de hipótese para decidir quando sua pizza estava quente o suficiente.
O sistema de controle de tração do seu carro entrou em ação quando você deu muita gasolina em uma estrada gelada ou o sistema de aviso de pressão dos pneus informa que o pneu do lado traseiro do passageiro estava anormalmente baixo e os faróis acenderam automaticamente por volta de 5: 19:00 como o anoitecer estava chegando.
O seu iPad está renderizando esta página no formato paisagem com base nas leituras do acelerômetro (barulhento).
A empresa do seu cartão de crédito desligou o cartão quando "você" comprou uma TV de tela plana na Best Buy no Texas e um anel de diamante de US $ 2.000 na Zales em um shopping do estado de Washington poucas horas depois de comprar o almoço, o gás e o filme perto de sua casa nos subúrbios de Pittsburgh.
As centenas de milhares de bits que foram enviados para renderizar esta página da Web em seu navegador, passaram individualmente por um teste de hipótese para determinar se eram provavelmente 0 ou 1 (além de uma incrível correção de erros).
Olhe para a direita um pouquinho nesses tópicos "relacionados".
Todas essas coisas "aconteceram" devido a testes de hipóteses . Para muitas dessas coisas, alguma estimativa de intervalo de algum parâmetro pode ser calculada. Mas, especialmente para processos industriais automatizados, o uso e a compreensão dos testes de hipóteses são cruciais.
Em um nível estatístico mais teórico, o importante conceito de poder estatístico surge naturalmente da estrutura da teoria da decisão / teste de hipóteses. Além disso, acredito que "até" um matemático puro pode apreciar a beleza e a simplicidade do lema Neyman – Pearson e sua prova.
Isso não quer dizer que o teste de hipóteses seja ensinado ou entendido bem. Em geral, não é. E, embora eu concorde que, particularmente nas ciências médicas, os relatórios de estimativas de intervalos, juntamente com tamanhos de efeito e noções de significado prático versus estatístico, são quase universalmente preferíveis a qualquer teste formal de hipótese, isso não significa que o teste de hipóteses e os conceitos não são importantes e interessantes por si só.
fonte
Eu ensino testes de hipóteses por várias razões. Uma é histórica: eles terão que entender um grande conjunto de pesquisas anteriores que leem e entender o ponto de vista do teste de hipóteses. Um segundo é que, mesmo nos tempos modernos, ele ainda é usado por alguns pesquisadores, geralmente implicitamente, na realização de outros tipos de análises estatísticas.
Mas quando eu ensino, eu ensino na estrutura da construção de modelos, que essas suposições e estimativas fazem parte da construção de modelos. Dessa forma, é relativamente fácil mudar para comparar modelos mais complexos e teoricamente interessantes. A pesquisa mais frequentemente coloca teorias umas contra as outras, em vez de uma teoria contra nada.
Os pecados do teste de hipóteses não são inerentes à matemática e ao uso adequado desses cálculos. Onde eles se encontram principalmente é o excesso de confiança e má interpretação. Se a grande maioria dos pesquisadores ingênuos usasse exclusivamente estimativa de intervalo sem o reconhecimento de nenhuma das relações com essas coisas que chamamos de hipóteses, poderíamos chamar isso de pecado.
fonte
fonte
Eu acho que depende de qual teste de hipótese você está falando. Diz-se que o teste de hipóteses "clássico" (Neyman-Pearson) é defeituoso porque não condiciona adequadamente o que realmente aconteceu quando você fez o teste . Em vez disso, foi projetado para funcionar "independentemente" do que você realmente viu a longo prazo. Mas deixar de condicionar pode levar a resultados enganosos no caso individual. Isso ocorre simplesmente porque o procedimento "não se importa" com o caso individual, a longo prazo.
O teste de hipóteses pode ser incluído no arcabouço teórico da decisão, que eu acho que é uma maneira muito melhor de entendê-lo. Você pode reafirmar o problema como duas decisões:
A estrutura de decisão é muito mais fácil de entender, porque separa claramente os conceitos de "o que você fará?" e "qual é a verdade?" (através de suas informações anteriores).
Você pode até aplicar a "teoria da decisão" (DT) à sua pergunta. Mas, para interromper o teste de hipóteses, o DT diz que você deve ter uma decisão alternativa à sua disposição. Portanto, a pergunta é: se o teste de hipóteses for abandonado, o que deve acontecer? Não consigo pensar em uma resposta para esta pergunta. Só consigo pensar em formas alternativas de realizar testes de hipóteses.
(NOTA: no contexto do teste de hipóteses, os dados, a distribuição de amostras, a distribuição prévia e a função de perda são todas informações anteriores, pois são obtidas antes da tomada de decisão.)
fonte
Se eu fosse um freqüentista incondicional, lembraria que os intervalos de confiança são regularmente testes de hipóteses invertidos, ou seja, quando o intervalo de 95% é simplesmente outra maneira de descrever todos os pontos que um teste envolvendo seus dados não rejeitaria no .05 nível. Nessas situações, a preferência por uma sobre a outra é mais uma questão de exposição do que de método.
Agora, a exposição é importante, é claro, mas acho que esse seria um argumento muito bom. É interessante e esclarecedor explicar as duas abordagens como reformulações da mesma inferência de diferentes pontos de vista. (O fato de que nem todos os estimadores de intervalo são testes invertidos é um fato deselegante, mas não particularmente desagradável, em termos pedagógicos).
Implicações muito mais sérias surgem da decisão de condicionar as observações, como apontado acima. No entanto, mesmo em retirada, o Frequentist sempre pôde observar que há muitas situações (talvez não a maioria) em que o condicionamento das observações seria imprudente ou pouco iluminado. Para aqueles, a configuração de HT / CI é (não 'é') exatamente o que se deseja e deve ser ensinada como tal.
fonte
Ao ensinar o teste de hipóteses de Neyman Pearson a estudantes de estatística, muitas vezes tentei localizá-lo em seu cenário original: o de tomar decisões. A infraestrutura dos erros do tipo 1 e do tipo 2 faz sentido, assim como a ideia de que você pode aceitar a hipótese nula.
Temos que tomar uma decisão, achamos que o resultado da nossa decisão pode ser melhorado com o conhecimento de um parâmetro, temos apenas uma estimativa desse parâmetro. Ainda temos que tomar uma decisão. Então, qual é a melhor decisão a ser tomada no contexto de ter uma estimativa do parâmetro?
Parece-me que, em seu cenário original (tomar decisões diante da incerteza), o teste de hipóteses de PN faz todo o sentido. Veja, por exemplo, N&P 1933, particularmente p. 291
Neyman e Pearson. Sobre o problema dos testes mais eficientes de hipóteses estatísticas. Transações Filosóficas da Sociedade Real de Londres. Série A, contendo artigos de caráter matemático ou físico (1933) vol. 231 pp. 289-337
fonte
O teste de hipóteses é uma maneira útil de formular muitas perguntas: o efeito de um tratamento é zero ou diferente de zero? A capacidade entre declarações como essas e um modelo ou procedimento estatístico (incluindo a construção de um estimador de intervalo) é importante para os profissionais, eu acho.
Também é importante mencionar que um intervalo de confiança (no sentido tradicional) não é inerentemente menos "propenso ao pecado" do que o teste de hipóteses - quantos estudantes de estatísticas de introdução conhecem a definição real de um intervalo de confiança?
Talvez o problema não seja o teste de hipóteses ou a estimativa de intervalos, pois são as versões clássicas do mesmo; a formulação bayesiana evita isso muito bem.
fonte
O motivo é a tomada de decisão. Na maioria das decisões, você faz ou não. Você pode continuar observando os intervalos o dia inteiro; no final, há um momento em que você decide fazer ou não.
O teste de hipóteses se encaixa perfeitamente nessa realidade simples de SIM / NÃO.
fonte