Eu sei que existem muitos materiais que explicam o valor p. No entanto, o conceito não é fácil de entender com firmeza sem maiores esclarecimentos.
Aqui está a definição de p-value da Wikipedia:
O valor p é a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que foi realmente observada, assumindo que a hipótese nula seja verdadeira. ( http://en.wikipedia.org/wiki/P-value )
Minha primeira pergunta diz respeito à expressão "pelo menos tão extrema quanto a que foi realmente observada". Meu entendimento da lógica subjacente ao uso do valor-p é o seguinte: Se o valor-p for pequeno, é improvável que a observação tenha ocorrido assumindo a hipótese nula e que possamos precisar de uma hipótese alternativa para explicar a observação. Se o valor p não for tão pequeno, é provável que a observação tenha ocorrido apenas com a hipótese nula e a hipótese alternativa não seja necessária para explicar a observação. Portanto, se alguém quiser insistir em uma hipótese, ele deve mostrar que o valor p da hipótese nula é muito pequeno. Com essa visão em mente, minha compreensão da expressão ambígua é que o valor de p é, Se a PDF da estatística é unimodal, onde é a estatística de teste e é o seu valor obtido a partir da observação. Isto está certo? Se estiver correto, ainda é aplicável o uso do PDF bimodal da estatística? Se dois picos do PDF forem bem separados e o valor observado estiver em algum lugar na região de baixa densidade de probabilidade entre os dois picos, em qual intervalo o valor p fornece a probabilidade de?
A segunda pergunta é sobre outra definição de valor-p do Wolfram MathWorld:
A probabilidade de uma variável assumir um valor maior ou igual ao valor observado estritamente por acaso. ( http://mathworld.wolfram.com/P-Value.html )
Entendi que a frase "estritamente por acaso" deveria ser interpretada como "assumindo uma hipótese nula". Isso esta certo?
A terceira questão diz respeito ao uso da "hipótese nula". Vamos supor que alguém queira insistir que uma moeda é justa. Ele expressa a hipótese de que a frequência relativa de cabeças é 0,5. Então a hipótese nula é "a frequência relativa das cabeças não é 0,5". Nesse caso, enquanto o cálculo do valor-p da hipótese nula é difícil, o cálculo é fácil para a hipótese alternativa. Obviamente, o problema pode ser resolvido trocando o papel das duas hipóteses. Minha pergunta é que a rejeição ou aceitação baseada diretamente no valor-p da hipótese alternativa original (sem introduzir a hipótese nula) é se está OK ou não. Se não estiver certo, qual é a solução alternativa usual para essas dificuldades ao calcular o valor p de uma hipótese nula?
Publiquei uma nova pergunta que é mais esclarecida com base na discussão neste tópico.
Respostas:
Primeira resposta
Você deve pensar no conceito de extremo em termos de probabilidade das estatísticas de teste, não em termos de seu valor ou do valor da variável aleatória sendo testada. Relato o seguinte exemplo de Christensen, R. (2005). Testando Fisher, Neyman, Pearson e Bayes . The American Statistician , 59 (2), 121–126
Aqui são as observações, a segunda linha é a probabilidade de observar uma dada observação sob a hipótese nula , que é usada aqui como estatística de teste, a terceira linha é o valor de . Estamos aqui no quadro do teste de Fisher: existe uma hipótese ( , neste caso ) sob a qual queremos ver se os dados são estranhos ou não. As observações com a menor probabilidade são 2 e 3 com 0,5% cada. Se você obter 2, por exemplo, a probabilidade de observar algo como provável ou menos provável ( e ) é de 1%. A observação não contribui paraθ = 0 p H 0 θ = 0 r = 2 r = 3 r = 4 pr θ=0 p H0 θ=0 r=2 r=3 r=4 p valor, embora esteja mais distante (se existir uma relação de ordem), pois possui maior probabilidade de ser observada.
Essa definição funciona em geral, pois acomoda variáveis categóricas e multidimensionais, onde uma relação de ordem não é definida. No caso de uma única variável quantitativa, em que você observa algum viés do resultado mais provável, pode fazer sentido calcular o valor de cauda única e considerar apenas as observações que estão em um lado da distribuição estatística do teste.p
Segunda resposta
Não concordo totalmente com esta definição do Mathworld.
Terceira resposta
Devo dizer que não tenho certeza absoluta de que entendi sua pergunta, mas tentarei fazer algumas observações que possam ajudá-lo.
No contexto mais simples dos testes dos Pescadores, onde você tem apenas a hipótese nula, esse deve ser o status quo . Isso ocorre porque os testes com pescadores funcionam essencialmente por contradição. Portanto, no caso da moeda, a menos que você tenha motivos para pensar de maneira diferente, você assumiria que é justo, . Em seguida, você calcula o valor de para seus dados em e, se seu valor de estiver abaixo de um limite predefinido, você rejeita a hipótese (prova por contradição). Você nunca calcula a probabilidade da hipótese nula.p H 0 pH0:θ=0.5 p H0 p
Com os testes de Neyman-Pearson, você especifica duas hipóteses alternativas e, com base na probabilidade relativa e na dimensionalidade dos vetores de parâmetros, favorece um ou outro. Isso pode ser visto, por exemplo, no teste da hipótese de moeda tendenciosa versus imparcial. Não tendencioso significa fixar o parâmetro em (a dimensionalidade desse espaço de parâmetro é zero), enquanto tendencioso pode ser qualquer valor (dimensionalidade igual a um). Isso resolve o problema de tentar contradizer a hipótese de viés por contradição, o que seria impossível, conforme explicado por outro usuário. Fisher e NP fornecem resultados semelhantes quando a amostra é grande, mas eles não são exatamente equivalentes. Aqui abaixo um código simples em R para uma moeda tendenciosa.θ ≠ 0,5θ=0.5 θ≠0.5
fonte
(1) Uma estatística é um número que você pode calcular a partir de uma amostra. É usado para colocar em ordem todas as amostras que você pode ter (em um modelo assumido, onde as moedas não caem em suas bordas e o que você tem). Se é o que você calcula a partir da amostra que você realmente obteve, & é a variável aleatória correspondente, então o valor p é dado pelo sob a hipótese nula, . 'Maior que' vs 'mais extremo' não tem importância em princípio. Para um teste de dois lados em uma média Normal, poderíamos usar mas é conveniente usar porque temos as tabelas apropriadas. (Observe a duplicação.)Tt T Pr(T≥t) H0 Pr(|Z|≥|z|) 2min[Pr(Z≥z),Pr(Z≤z)]
Não é necessário que a estatística do teste coloque as amostras em ordem de probabilidade sob a hipótese nula. Existem situações (como o exemplo de Zag) em que qualquer outra maneira parece perversa (sem mais informações sobre quais medidas , que tipos de discrepâncias com são de maior interesse, etc.), mas geralmente outros critérios são usados. Assim, você pode ter um PDF bimodal para a estatística do teste e ainda testar o usando a fórmula acima.r H0 H0
(2) Sim, eles significam sob .H0
(3) Uma hipótese nula como "A frequência das cabeças não é 0,5" não serve para nada, porque você nunca seria capaz de rejeitá-la. É um nulo composto, incluindo "a frequência das cabeças é 0,49999999" ou o mais próximo que você desejar. Se você pensa de antemão na feira da moeda ou não, você escolhe uma hipótese nula útil que incide sobre o problema. Talvez o mais útil após o experimento seja calcular um intervalo de confiança para a frequência das cabeças que mostra que ela claramente não é uma moeda justa, ou está perto o suficiente para ser justa, ou você precisa fazer mais tentativas para descobrir.
Uma ilustração para (1):
Suponha que você esteja testando a justiça de uma moeda com 10 lançamentos. Existem resultados possíveis. Aqui estão três deles:210
Você provavelmente concorda comigo que os dois primeiros parecem um pouco desconfiados. No entanto, as probabilidades sob o nulo são iguais:
Para chegar a qualquer lugar, é necessário considerar quais tipos de alternativa ao nulo você deseja testar. Se você estiver preparado para assumir a independência de cada sorteio sob nulo e alternativo (e em situações reais isso geralmente significa trabalhar muito para garantir que os ensaios experimentais sejam independentes), você pode usar a contagem total de cabeças como uma estatística de teste sem perder informações . (Particionar o espaço de amostra dessa maneira é outro trabalho importante que as estatísticas realizam.)
Então você tem uma contagem entre 0 e 10
Sua distribuição sob o nulo é
Sob a versão da alternativa que melhor se ajusta aos dados, se você vê (digamos) 3 em 10 cabeças, a probabilidade de cabeças é , então310
Considere a razão da probabilidade abaixo de nulo para a probabilidade abaixo da alternativa (chamada razão de verossimilhança):
Compare com
Portanto, para esse nulo, as duas estatísticas ordenam amostras da mesma maneira. Se você repetir com um nulo de 0,85 (ou seja, testando que a frequência de longo prazo das cabeças é de 85%), elas não o fazem.
Para ver porque
Alguns valores de são menos prováveis sob a alternativa, e a estatística do teste da razão de verossimilhança leva isso em consideração. NB esta estatística de teste não será extrema parat
E tudo bem - toda amostra pode ser considerada extrema de algum ponto de vista. Você escolhe a estatística de teste de acordo com o tipo de discrepância em relação ao nulo que deseja detectar.
... Continuando essa linha de raciocínio, é possível definir uma estatística que particione o espaço da amostra de maneira diferente para testar o mesmo nulo contra a alternativa que um lançamento de moeda influencia na próxima. Ligue para o número de execuções , para quer
tem :r=6
A sequência suspeita
tem . O mesmo acontecer=10
enquanto no outro extremo
tem . Usando probabilidade sob o nulo como estatística de teste (do jeito que você gosta), você pode dizer que o valor de p da amostrar=1
é, portanto, . O que é digno de nota, comparando esse teste ao anterior, é que, mesmo se você se ater estritamente à ordem dada pela probabilidade sob o nulo, a maneira pela qual você define sua estatística de teste para particionar o espaço da amostra depende da consideração de alternativas.41024=1256
fonte