Entendendo o valor-p

33

Eu sei que existem muitos materiais que explicam o valor p. No entanto, o conceito não é fácil de entender com firmeza sem maiores esclarecimentos.

Aqui está a definição de p-value da Wikipedia:

O valor p é a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que foi realmente observada, assumindo que a hipótese nula seja verdadeira. ( http://en.wikipedia.org/wiki/P-value )

Minha primeira pergunta diz respeito à expressão "pelo menos tão extrema quanto a que foi realmente observada". Meu entendimento da lógica subjacente ao uso do valor-p é o seguinte: Se o valor-p for pequeno, é improvável que a observação tenha ocorrido assumindo a hipótese nula e que possamos precisar de uma hipótese alternativa para explicar a observação. Se o valor p não for tão pequeno, é provável que a observação tenha ocorrido apenas com a hipótese nula e a hipótese alternativa não seja necessária para explicar a observação. Portanto, se alguém quiser insistir em uma hipótese, ele deve mostrar que o valor p da hipótese nula é muito pequeno. Com essa visão em mente, minha compreensão da expressão ambígua é que o valor de p émin[P(X<x),P(x<X)], Se a PDF da estatística é unimodal, onde X é a estatística de teste e x é o seu valor obtido a partir da observação. Isto está certo? Se estiver correto, ainda é aplicável o uso do PDF bimodal da estatística? Se dois picos do PDF forem bem separados e o valor observado estiver em algum lugar na região de baixa densidade de probabilidade entre os dois picos, em qual intervalo o valor p fornece a probabilidade de?

A segunda pergunta é sobre outra definição de valor-p do Wolfram MathWorld:

A probabilidade de uma variável assumir um valor maior ou igual ao valor observado estritamente por acaso. ( http://mathworld.wolfram.com/P-Value.html )

Entendi que a frase "estritamente por acaso" deveria ser interpretada como "assumindo uma hipótese nula". Isso esta certo?

A terceira questão diz respeito ao uso da "hipótese nula". Vamos supor que alguém queira insistir que uma moeda é justa. Ele expressa a hipótese de que a frequência relativa de cabeças é 0,5. Então a hipótese nula é "a frequência relativa das cabeças não é 0,5". Nesse caso, enquanto o cálculo do valor-p da hipótese nula é difícil, o cálculo é fácil para a hipótese alternativa. Obviamente, o problema pode ser resolvido trocando o papel das duas hipóteses. Minha pergunta é que a rejeição ou aceitação baseada diretamente no valor-p da hipótese alternativa original (sem introduzir a hipótese nula) é se está OK ou não. Se não estiver certo, qual é a solução alternativa usual para essas dificuldades ao calcular o valor p de uma hipótese nula?




Publiquei uma nova pergunta que é mais esclarecida com base na discussão neste tópico.


JDL
fonte
14
Você captou uma sutileza que muitas vezes não é reconhecida: "mais extremo" precisa ser medido em termos de probabilidade relativa da hipótese alternativa, em vez de no sentido óbvio (mas geralmente não correto) de estar mais à frente na amostragem nula distribuição. Isso é explícito na formulação do Neyman-Pearson Lemma , que é usado para justificar muitos testes de hipóteses e determinar suas regiões críticas (e de onde seus valores p). Pensar nisso ajudará a responder sua primeira pergunta.
whuber
1
Pelo que me lembro, o lema de Neyman-Pearson é ideal para testes de hipóteses simples versus simples (Ho: mu = mu_0, Ha: mu = mu_a). Para testes compostos (Ho: mu = mu_0, Ha: mu> mu_a), há um teste alternativo.
precisa saber é o seguinte

Respostas:

17

Primeira resposta

Você deve pensar no conceito de extremo em termos de probabilidade das estatísticas de teste, não em termos de seu valor ou do valor da variável aleatória sendo testada. Relato o seguinte exemplo de Christensen, R. (2005). Testando Fisher, Neyman, Pearson e Bayes . The American Statistician , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

Aqui são as observações, a segunda linha é a probabilidade de observar uma dada observação sob a hipótese nula , que é usada aqui como estatística de teste, a terceira linha é o valor de . Estamos aqui no quadro do teste de Fisher: existe uma hipótese ( , neste caso ) sob a qual queremos ver se os dados são estranhos ou não. As observações com a menor probabilidade são 2 e 3 com 0,5% cada. Se você obter 2, por exemplo, a probabilidade de observar algo como provável ou menos provável ( e ) é de 1%. A observação não contribui paraθ = 0 p H 0 θ = 0 r = 2 r = 3 r = 4 prθ=0pH0θ=0r=2r=3r=4p valor, embora esteja mais distante (se existir uma relação de ordem), pois possui maior probabilidade de ser observada.

Essa definição funciona em geral, pois acomoda variáveis ​​categóricas e multidimensionais, onde uma relação de ordem não é definida. No caso de uma única variável quantitativa, em que você observa algum viés do resultado mais provável, pode fazer sentido calcular o valor de cauda única e considerar apenas as observações que estão em um lado da distribuição estatística do teste.p

Segunda resposta

Não concordo totalmente com esta definição do Mathworld.

Terceira resposta

Devo dizer que não tenho certeza absoluta de que entendi sua pergunta, mas tentarei fazer algumas observações que possam ajudá-lo.

No contexto mais simples dos testes dos Pescadores, onde você tem apenas a hipótese nula, esse deve ser o status quo . Isso ocorre porque os testes com pescadores funcionam essencialmente por contradição. Portanto, no caso da moeda, a menos que você tenha motivos para pensar de maneira diferente, você assumiria que é justo, . Em seguida, você calcula o valor de para seus dados em e, se seu valor de estiver abaixo de um limite predefinido, você rejeita a hipótese (prova por contradição). Você nunca calcula a probabilidade da hipótese nula.p H 0 pH0:θ=0.5pH0p

Com os testes de Neyman-Pearson, você especifica duas hipóteses alternativas e, com base na probabilidade relativa e na dimensionalidade dos vetores de parâmetros, favorece um ou outro. Isso pode ser visto, por exemplo, no teste da hipótese de moeda tendenciosa versus imparcial. Não tendencioso significa fixar o parâmetro em (a dimensionalidade desse espaço de parâmetro é zero), enquanto tendencioso pode ser qualquer valor (dimensionalidade igual a um). Isso resolve o problema de tentar contradizer a hipótese de viés por contradição, o que seria impossível, conforme explicado por outro usuário. Fisher e NP fornecem resultados semelhantes quando a amostra é grande, mas eles não são exatamente equivalentes. Aqui abaixo um código simples em R para uma moeda tendenciosa.θ 0,5θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher
Zag
fonte
2
+1 por apontar um ótimo artigo que eu não conhecia. (Também para algum ceticismo muito necessário sobre a utilidade da visão estatística de Mathworld).
conjugateprior
Muito obrigado! Portanto, o valor p é \ int_ {x: f (x) <= k} f, onde f é o PDF de uma estatística de teste e k é o valor observado da estatística. Mais uma vez obrigado.
JDL
Em relação à terceira resposta, o que é provado em sua resposta é a injustiça da moeda porque a suposição de justiça é rejeitada. Pelo contrário, para provar a equidade da moeda por contradição, devo assumir a injustiça \ theta \ neq 0,5 e calcular o valor-p dos meus dados. Como eu posso fazer isso? Meu argumento é a dificuldade originada no sinal \ neq da suposição de injustiça. Preciso introduzir algum nível de tolerância para justiça, digamos 0,4 <\ theta <0,6 e calcular o valor de p em termos de \ theta e integrá-lo em 0 <\ theta <0,4 e 0,6 <\ theta <1?
JDL
Mais uma pergunta. Este link explica o valor p "unilateral". Ele diz que o valor p unilateral responde a perguntas como "hipótese nula, que duas populações são realmente iguais ... qual é a chance de amostras aleatoriamente selecionadas terem meios tão distantes quanto (ou além disso) observados neste experimento com o grupo especificado tem a média maior ? " É um uso apropriado do valor p unilateral? Eu acho que a hipótese nula em si deve ser expressa como uma desigualdade neste caso (em vez de igualdade e teste unilateral).
JDL
1
@ Zag, discordo bastante desta resposta: você não precisa pensar no conceito de extremo em termos de probabilidade. Melhor dizer que , neste exemplo, a probabilidade abaixo de nulo está sendo usada como estatística de teste - mas isso não é obrigatório. Por exemplo, se a razão de verossimilhança, como mencionada por whuber, for usada como estatística de teste, em geral não colocará amostras possíveis na mesma ordem em que a probabilidade será nula. Outras estatísticas são escolhidas para potência máxima contra uma alternativa especificada, ou todas as alternativas, ou para alta potência contra um conjunto vagamente definido.
Scortchi - Restabelece Monica
8

(1) Uma estatística é um número que você pode calcular a partir de uma amostra. É usado para colocar em ordem todas as amostras que você pode ter (em um modelo assumido, onde as moedas não caem em suas bordas e o que você tem). Se é o que você calcula a partir da amostra que você realmente obteve, & é a variável aleatória correspondente, então o valor p é dado pelo sob a hipótese nula, . 'Maior que' vs 'mais extremo' não tem importância em princípio. Para um teste de dois lados em uma média Normal, poderíamos usar mas é conveniente usar porque temos as tabelas apropriadas. (Observe a duplicação.)TtTPr(Tt)H0Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)]

Não é necessário que a estatística do teste coloque as amostras em ordem de probabilidade sob a hipótese nula. Existem situações (como o exemplo de Zag) em que qualquer outra maneira parece perversa (sem mais informações sobre quais medidas , que tipos de discrepâncias com são de maior interesse, etc.), mas geralmente outros critérios são usados. Assim, você pode ter um PDF bimodal para a estatística do teste e ainda testar o usando a fórmula acima.rH0H0

(2) Sim, eles significam sob .H0

(3) Uma hipótese nula como "A frequência das cabeças não é 0,5" não serve para nada, porque você nunca seria capaz de rejeitá-la. É um nulo composto, incluindo "a frequência das cabeças é 0,49999999" ou o mais próximo que você desejar. Se você pensa de antemão na feira da moeda ou não, você escolhe uma hipótese nula útil que incide sobre o problema. Talvez o mais útil após o experimento seja calcular um intervalo de confiança para a frequência das cabeças que mostra que ela claramente não é uma moeda justa, ou está perto o suficiente para ser justa, ou você precisa fazer mais tentativas para descobrir.

Uma ilustração para (1):

Suponha que você esteja testando a justiça de uma moeda com 10 lançamentos. Existem resultados possíveis. Aqui estão três deles:210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

Você provavelmente concorda comigo que os dois primeiros parecem um pouco desconfiados. No entanto, as probabilidades sob o nulo são iguais:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

Para chegar a qualquer lugar, é necessário considerar quais tipos de alternativa ao nulo você deseja testar. Se você estiver preparado para assumir a independência de cada sorteio sob nulo e alternativo (e em situações reais isso geralmente significa trabalhar muito para garantir que os ensaios experimentais sejam independentes), você pode usar a contagem total de cabeças como uma estatística de teste sem perder informações . (Particionar o espaço de amostra dessa maneira é outro trabalho importante que as estatísticas realizam.)

Então você tem uma contagem entre 0 e 10

t<-c(0:10)

Sua distribuição sob o nulo é

p.null<-dbinom(t,10,0.5)

Sob a versão da alternativa que melhor se ajusta aos dados, se você vê (digamos) 3 em 10 cabeças, a probabilidade de cabeças é , então310

p.alt<-dbinom(t,10,t/10)

Considere a razão da probabilidade abaixo de nulo para a probabilidade abaixo da alternativa (chamada razão de verossimilhança):

lr<-p.alt/p.null

Compare com

plot(log(lr),p.null)

Portanto, para esse nulo, as duas estatísticas ordenam amostras da mesma maneira. Se você repetir com um nulo de 0,85 (ou seja, testando que a frequência de longo prazo das cabeças é de 85%), elas não o fazem.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

Para ver porque

plot(t,p.alt)

Alguns valores de são menos prováveis ​​sob a alternativa, e a estatística do teste da razão de verossimilhança leva isso em consideração. NB esta estatística de teste não será extrema parat

HTHTHTHTHT

E tudo bem - toda amostra pode ser considerada extrema de algum ponto de vista. Você escolhe a estatística de teste de acordo com o tipo de discrepância em relação ao nulo que deseja detectar.

... Continuando essa linha de raciocínio, é possível definir uma estatística que particione o espaço da amostra de maneira diferente para testar o mesmo nulo contra a alternativa que um lançamento de moeda influencia na próxima. Ligue para o número de execuções , para quer

HHTHHHTTTH

tem :r=6

HH T HHH TTT H

A sequência suspeita

HTHTHTHTHT

tem . O mesmo acontecer=10

THTHTHTHTH

enquanto no outro extremo

HHHHHHHHHHTTTTTTTTTT

tem . Usando probabilidade sob o nulo como estatística de teste (do jeito que você gosta), você pode dizer que o valor de p da amostrar=1

HTHTHTHTHT

é, portanto, . O que é digno de nota, comparando esse teste ao anterior, é que, mesmo se você se ater estritamente à ordem dada pela probabilidade sob o nulo, a maneira pela qual você define sua estatística de teste para particionar o espaço da amostra depende da consideração de alternativas.41024=1256

Scortchi - Restabelecer Monica
fonte
Você diz que a definição Pr (T \ ge t; H_0) pode ser aplicável a qualquer PDF multimodal (é claro, incluindo bimodal) de uma estatística de teste. Então, você e Zag fornecem diferentes valores de p para PDF multimodal de uma estatística de teste. IMHO, a definição de Zag é mais razoável porque o papel do valor-p é quantificar a probabilidade (ou estranha) da observação sob a hipótese nula, como ele apontou. Qual é a sua justificativa para a definição Pr (T \ ge t; H_0)?
JDL
@JDL, essa é apenas a definição de um valor-p. A questão passa a ser como encontrar uma estatística de teste 'boa' (e como definir 'boa'). Às vezes, a probabilidade sob o valor nulo (ou qualquer função dos dados que dê a mesma ordem) é usada como estatística de teste. Às vezes, existem boas razões para escolher outras, que ocupam muito espaço nos livros de estatística teórica. Eu acho justo dizer que eles envolvem considerações explícitas ou implícitas de alternativas. ...
Scortchi - Restabelece Monica
@JDL, ... E se uma observação particular tem baixa probabilidade sob ambos nula e alternativa parece razoável não considerá-la como extremo.
Scortchi - Restabelece Monica
Obrigado por suas respostas, @ Scortchi. Publiquei uma nova pergunta e já vi seus comentários logo após a publicação. De qualquer forma, ainda não estou claro sobre a definição. Obrigado novamente por suas respostas gentis.
JDL
Eu adicionei uma ilustração
Scortchi - Reinstate Monica