Em geral, o processo de teste de hipóteses pode ser dividido em 4 etapas:
- Formule o problema prático em termos de hipóteses.
- Calcule uma estatística , uma função puramente dos dados. Todas as boas estatísticas de teste devem ter duas propriedades: (a) devem tender a se comportar de maneira diferente quando for verdadeiro e quando for verdadeiro; e (b) sua distribuição de probabilidade deve ser calculada sob a suposição de que é verdadeiro.
- Escolha uma região crítica. Devemos ser capazes de decidir sobre o tipo de valores de que mais fortemente para ser verdadeiro do que ser verdadeiro.
- Decida o tamanho da região crítica. Isso envolve especificar quão grande é o risco que estamos dispostos a correr para chegar a uma conclusão incorreta. Definimos o nível de significância ou tamanho do teste, que denotamos por , como o risco que estamos dispostos a correr ao rejeitar quando na verdade é verdade.
Parece que o passo mais criativa, o que realmente define um teste específico para além de outros é a escolha da estatística . Portanto, minha pergunta é: como os autores dos testes estatísticos de hipóteses apresentaram suas estatísticas?
Dado um problema específico, é sempre óbvio qual deve ser a estatística ideal (se é que é definível por razões objetivas)? Parece que esses dois requisitos listados na etapa 2 acima são dois amplos e muitas estatísticas diferentes podem ser criadas para testar as mesmas hipóteses. Por exemplo, não teria sido um teste alternativo diferente do teste t com base em medianas ou outras estatísticas ...?
hypothesis-testing
rmagno
fonte
fonte
Respostas:
Existem várias maneiras de identificar estatísticas de teste, dependendo das circunstâncias. É importante tentar identificar as alternativas que você considera importantes e tentar obter algum poder contra elas, sob algum conjunto plausível de suposições.
Se você tem uma hipótese relacionada às médias populacionais (na verdade, vamos simplificar e considerar um teste de uma amostra), por exemplo, uma estatística baseada na média da amostra pareceria uma escolha óbvia para uma estatística, pois tenderá a comportar-se de maneira diferente sob o nulo e a alternativa. No entanto (por exemplo), se você estiver procurando alternativas de turno para uma família Laplace / dupla exponencial ( ), algo baseado na mediana da amostra seria uma escolha melhor para um teste de uma mudança na média do que algo baseado na média da amostra.DExp(μ,τ)
Se você possui um modelo paramétrico específico (com base em uma família de distribuição específica), é comum considerar pelo menos um teste de razão de verossimilhança , pois eles possuem várias propriedades atraentes para amostras grandes.
Em muitas situações em que você está tentando projetar um teste do zero, uma estatística de teste será baseada em uma quantidade essencial . A estatística do teste em um teste t de uma amostra (assim como em muitos outros testes que você já viu antes) é uma quantidade essencial.
De modo nenhum. Considere um teste de normalidade geral contra uma alternativa ominibus, por exemplo. Existem muitas maneiras de medir o desvio da normalidade (dezenas desses testes foram propostos) e, em tamanhos de amostra típicos, nenhum deles é mais poderoso contra todas as alternativas.
Ao tentar projetar um teste para uma situação como essa, é necessária uma certa quantidade de criatividade para se chegar a uma escolha que tenha um bom poder contra os tipos de alternativas que você está mais interessado em escolher.
De fato. Se você fizer alguma suposição paramétrica (suponha que os dados sejam extraídos de alguma família de distribuição e, em seguida, faça sua hipótese se relacionar com um ou mais parâmetros dela), pode haver um teste da melhor maneira possível para todas essas situações (especificamente, uma uniformidade mais poderosa teste), mas mesmo assim, se sua suposição paramétrica for mais parecida com uma suposição aproximada, o desejo de alguma robustez nessa suposição poderá mudar bastante as coisas.
Por exemplo (novamente, fazer um teste de uma amostra de mudança de local para ser simples), se eu estiver amostrando em uma população normal, um teste t será o melhor. Mas digamos que eu acho que pode não ser exatamente normal e, além disso, pode haver uma pequena quantidade de contaminação por algum outro processo com uma cauda moderadamente pesada, depois algo mais robusto (talvez até uma alternativa baseada em classificação como a assinada teste de classificação) tendem a ter um desempenho melhor em uma variedade de situações desse tipo.
fonte
Uma estatística de teste útil é aquela cuja distribuição depende do parâmetro de interesse e de nenhuma outra parte do modelo estatístico. Dessa forma, sua distribuição sob a hipótese nula (ou seja, quando o parâmetro de interesse tem o valor especificado pela hipótese nula) pode ser totalmente especificada. Uma estatística de teste ideal acrescenta a isso a propriedade de ter uma distribuição fortemente dependente do parâmetro de interesse, para que o teste resultante tenha um bom poder.
Considere o teste t de Student. Foi desenvolvido como um teste de significância (consulte Qual é a diferença entre "teste de hipótese" e "teste de significância"? ) Para médias de amostra pequena. A dificuldade que Gossett enfrentou foi que a distribuição da média de uma amostra pequena de uma população normal depende do parâmetro de interesse, , mas também de um 'parâmetro incômodo', o desvio padrão da população, . A pequena condição da amostra significava que o desvio padrão estimado a partir da amostra, , não é uma estimativa adequada de . Para resolver o problema, Gossett criou a estatística de testeμ σ s σ t=n−−√×x¯/s que depende apenas dos dados e que possui uma distribuição definida para qualquer tamanho de amostra, . Importante, essa distribuição não é totalmente afetada pela . (Na verdade, essa forma da estatística de teste foi uma revisão de Fisher, se bem me lembro.)n σ
Atualmente, nem sempre é fácil ver o gênio da solução de Gossett, particularmente porque a estatística t parece quase idêntica à estatística z para uma distribuição normal com variação conhecida (apenas substitua por ). A parte difícil foi determinar a natureza da distribuição da estatística de teste. A prova de que a distribuição de Gossett estava correta não veio até um artigo posterior de Fisher.σ s
Em muitos casos, os testes estatísticos são planejados encontrando-se as estatísticas de teste que utilizam uma distribuição que pode comprovar aproximar as distribuições conhecidas de acordo com suposições aceitáveis. Muitos testes são baseados em aproximações à distribuição do qui-quadrado, por exemplo.
fonte