Um exemplo em que o princípio da probabilidade realmente importa?

20

Existe um exemplo em que dois testes defensáveis ​​diferentes com probabilidades proporcionais levariam um a inferências marcadamente diferentes (e igualmente defensáveis), por exemplo, onde os valores-p estão em ordem de grandeza distante, mas o poder de alternativas é semelhante?

Todos os exemplos que vejo são muito tolos, comparando um binômio com um binômio negativo, em que o valor p do primeiro é de 7% e do segundo de 3%, que são "diferentes" apenas na medida em que alguém toma decisões binárias sobre limites arbitrários de significância como 5% (que, a propósito, é um padrão bastante baixo para inferência) e nem se preocupa em olhar para o poder. Se eu mudar o limite de 1%, por exemplo, ambos levarão à mesma conclusão.

Eu nunca vi um exemplo em que isso levaria a inferências marcadamente diferentes e defensáveis . Existe esse exemplo?

Estou perguntando, porque vi tanta tinta gasta nesse tópico, como se o Princípio da Probabilidade fosse algo fundamental nos fundamentos da inferência estatística. Mas se o melhor exemplo que temos são exemplos tolos como o descrito acima, o princípio parece completamente inconseqüente.

Portanto, estou procurando um exemplo muito convincente, em que, se alguém não seguir o LP, o peso da evidência apontaria esmagadoramente em uma direção em um teste, mas, em um teste diferente com probabilidade proporcional, o peso da evidência seria estar esmagadoramente apontando em uma direção oposta, e ambas as conclusões parecem sensatas.

Idealmente, poderíamos demonstrar que podemos ter respostas arbitrariamente distantes, mas sensíveis, como testes com p=0,1 versus com probabilidades proporcionais e poder equivalente para detectar a mesma alternativa.p=10-10

PS: A resposta de Bruce não aborda a questão.

statslearner2
fonte
5
Ao realizar o teste de significância, sempre é possível alterar a decisão alterando o limite. Você poderia, portanto, explicar o que você quer dizer com "marcadamente", "bobo" ou "convincente"? BTW, você parece estar lendo o artigo da Wikipedia .
whuber
2
Bem-vindo ao CV, @statslearner. Você pode dar um exemplo de uma ou mais abordagens específicas para a inferência que não usam o princípio de probabilidade que você gostaria de ver contrastado?
Alexis #
1
@whuber idealmente, gostaria de ver que você pode construir respostas arbitrariamente diferentes, como, se quiser usar valores de p, algo como versus p = 10 - 5 , e os dois cálculos ainda pareceriam defensáveis. p=0,5p=10-5
statslearner2
3
Não posso seguir esse comentário porque não faz sentido. Independentemente disso, você considerou apenas alterar os números dados no exemplo da Wikipedia? p=105
whuber
6
A diferença significativa com implicações práticas é o processamento de regras de parada: no LP elas não importam, fora do LP importam. Verifique Berger & Wolpert (1987) para obter detalhes.
Xi'an

Respostas:

7

Pense em uma situação hipotética quando uma hipótese nula de ponto é verdadeira, mas continua a amostragem até p<0,05 (isso sempre acontecerá mais cedo ou mais tarde, ou seja, ocorrerá com probabilidade 1) e depois decide interromper o teste e rejeitar o nulo. Esta é uma regra de parada reconhecidamente extrema, mas considere-a pelo bem do argumento.

Esse procedimento idiota terá 100% de taxa de erro tipo I, mas não há nada errado com ele, de acordo com o princípio da verossimilhança.

Eu diria que isso conta como "realmente" importante. É claro que você pode escolher qualquer α nesse argumento. Os bayesianos podem usar um corte fixo no fator Bayes, se assim o desejarem. A mesma lógica se aplica. A principal lição aqui é que você não pode aderir ao LP e tem uma garantia de taxa de erro. Nao tem almoço gratis.

ameba diz Restabelecer Monica
fonte
4
Eu estava pensando neste exemplo também. Mas eu não mencionei isso porque é realmente imbecil. Mas, na verdade, é o que acontece na prática indireta e informalmente.
Sextus Empiricus
1
Quais são as 2 estatísticas e a probabilidade delas no seu exemplo? No neg. caso binomial vs binomial, temos: 1) estatística 1, número de tentativas até 3 cabeças, probabilidade binomial negativa; 2) estatísticas 2, número de cabeças em n ensaios, como bino-mail semelhante. No seu exemplo, não vejo quais são as duas estatísticas e se elas têm probabilidades proporcionais.
precisa saber é o seguinte
1
No seu exemplo, provavelmente seria "número de tentativas até p <0,05", o que dificilmente duvido que seja proporcional ao binômio, por isso não tenho certeza de que seu exemplo seja válido, Amoeba.
precisa saber é o seguinte
1
Não acho que o princípio da probabilidade diga "não há nada errado com isso". O princípio da probabilidade filtra os maus procedimentos. O fato de o procedimento não obedecer ao princípio da verossimilhança não é o mesmo que ser endossado pelo princípio da verossimilhança. Uma análise bayesiana desse problema de teste seqüencial, que obviamente obedece ao princípio da probabilidade, possui propriedades perfeitamente boas, porque não implementará o procedimento "imbecil" que você descreve.
guy
3
@amoeba considere sob a alternativa ou θ = 0 sob o nulo, com Y iN ( θ , 1 ) . É fácil mostrar que o log do fator Bayes é aproximadamente 1θN(0,τ1)θ=0YiN(θ,1)queZné aestatísticausual dotesteZ. Rejeitar quando o fator Bayes for maior que1é equivalente a rejeitar quando| Zn| >O(12[log(τ/n)+Zn2]ZnZ1. Sob o nulo, não é garantido que isso ocorra na configuração de teste sequencial (conforme a lei do logaritmo iterado); portanto, o procedimento bayesiano não será vítima do problema que você descreveu. |Zn|>O(logn)
guy
4

Isenção de responsabilidade: acredito que esta resposta esteja no centro de todo o argumento, por isso vale a pena discutir, mas ainda não explorei completamente a questão. Como tal, congratulo-me com correções, aperfeiçoamentos e comentários.

O aspecto mais importante diz respeito aos dados coletados sequencialmente. Por exemplo, suponha que você observou resultados binários e viu 10 sucessos e 5 falhas. O princípio da probabilidade diz que você deve chegar à mesma conclusão sobre a probabilidade de sucesso, independentemente de coletar dados até ter 10 sucessos (binômio negativo) ou executar 15 tentativas, das quais 10 foram sucessos (binomial) .

Por que isso tem alguma importância?

Porque, de acordo com o princípio da probabilidade (ou pelo menos uma certa interpretação do mesmo), é totalmente bom deixar os dados influenciarem quando você vai parar de coletar dados, sem precisar alterar suas ferramentas de inferência.

Conflito com métodos sequenciais

A idéia de que o uso de seus dados para decidir quando parar de coletar dados sem alterar suas ferramentas inferenciais é completamente contrário aos métodos tradicionais de análise seqüencial. O exemplo clássico disso é com os métodos usados ​​em ensaios clínicos. Para reduzir a exposição potencial a tratamentos prejudiciais, os dados são frequentemente analisados ​​em momentos intermediários antes da análise ser feita. Se o teste ainda não terminou, mas os pesquisadores já têm dados suficientes para concluir que o tratamento funciona ou é prejudicial, a ética médica nos diz que devemos interromper o teste; se o tratamento funcionar, é ético interromper o estudo e começar a disponibilizá-lo para pacientes que não fazem parte do estudo. Se for prejudicial, é mais ético parar, para que paremos de expor os pacientes do estudo a um tratamento prejudicial.

Agora, o problema é que começamos a fazer várias comparações; portanto, aumentamos nossa taxa de erro do tipo I se não ajustarmos nossos métodos para levar em conta as múltiplas comparações. Isso não é exatamente o mesmo que os problemas tradicionais de comparações múltiplas, pois são realmente comparações parciais múltiplas (ou seja, se analisarmos os dados uma vez com 50% dos dados coletados e uma vez com 100%, essas duas amostras claramente não são independentes!) , mas, em geral, quanto mais comparações fizermos, mais precisamos alterar nossos critérios para rejeitar a hipótese nula para preservar a taxa de erro tipo I, com mais comparações planejadas exigindo mais evidências para rejeitar a nula.

Isso coloca os pesquisadores clínicos em um dilema; deseja verificar seus dados com frequência, mas aumente as evidências necessárias para rejeitar o valor nulo ou verifique com pouca frequência seus dados, aumentando seu poder, mas potencialmente não agindo da maneira ideal em relação à ética médica (por exemplo, atrasar o produto no mercado ou expor desnecessariamente os pacientes a tratamentos prejudiciais).

É meu entendimento (talvez equivocado) de que o princípio da probabilidade parece nos dizer que não importa quantas vezes verifiquemos os dados, devemos fazer a mesma inferência. Isso basicamente diz que todas as abordagens para o desenho de teste seqüencial são completamente desnecessárias; basta usar o princípio da probabilidade e parar quando tiver coletado dados suficientes para concluir. Como você não precisa alterar seus métodos de inferência para ajustar o número de análises que preparou, não há dilema de troca entre o número de vezes verificado e a potência. Bam, todo o campo da análise sequencial é resolvido (de acordo com esta interpretação).

Pessoalmente, o que é muito confuso para mim é que um fato bem conhecido no campo do design seqüencial, mas bastante sutil, é que a probabilidade da estatística final do teste é amplamente alterada pela regra de parada; basicamente, as regras de parada aumentam a probabilidade de maneira descontínua nos pontos de parada. Aqui está um enredo dessa distorção; a linha tracejada é o PDF da estatística final do teste sob o nulo se os dados forem analisados ​​apenas após todos os dados serem coletados, enquanto a linha sólida fornecerá a distribuição sob o nulo da estatística do teste se você verificar os dados 4 vezes com um determinado regra.

Dito isso, entendo que o princípio da probabilidade parece implicar que podemos jogar fora tudo o que sabemos sobre o design seqüencial freqüentista e esquecer quantas vezes analisamos nossos dados. Claramente, as implicações disso, especialmente no campo dos desenhos clínicos, são enormes. No entanto, não pensei em como eles justificam ignorar como as regras de parada alteram a probabilidade da estatística final.

Alguma discussão leve pode ser encontrada aqui , principalmente nos slides finais.

Cliff AB
fonte
2
+1. Acho que é conceitualmente mais fácil pensar em uma situação hipotética quando a hipótese nula é verdadeira, mas mantemos a amostragem até (essa parede sempre acontece mais cedo ou mais tarde, ou seja, acontecerá com a probabilidade 1) e depois decide interromper o teste. Este procedimento idiota terá 100% de taxa de erro tipo I, mesmo que esteja em conformidade com o LP. p<0.05
Ameba diz Reinstate Monica
@amoeba: Concordo que seu exemplo é bem direto (+1). O objetivo da minha resposta é enfatizar por que há mesmo uma discussão. Penso que a resposta é que, se as implicações e interpretações do LP estivessem corretas, isso significaria que os ensaios clínicos não precisariam mais escolher entre potência máxima e exposição desnecessária, o que seria um ganho absolutamente enorme. Em geral, isso também liberaria os pesquisadores da necessidade de adivinhar o tamanho adequado da amostra com antecedência, o que melhora muito a utilidade dos testes estatísticos.
Cliff AB
Bem, acho que toda a estrutura dos testes freqüentistas é inconsistente com o LP, e é exatamente assim. Utilizamos testes freqüentes, se queremos garantir as taxas de erro. Acontece que isso é inconsistente com o LP. Veja também o paradoxo de Lindley e tudo isso. Bem, difícil. Eu costumava ficar empolgado com esses assuntos, mas agora não estou mais. Nao tem almoço gratis; é preciso fazer algumas escolhas. Observe que muitos procedimentos bayesianos também violam o LP .
ameba diz Restabelecer Monica
"a probabilidade da estatística final do teste é amplamente alterada pela regra de parada" O pdf é alterado e também a probabilidade (mas apenas por uma constante), mas você ainda pode ter funções de probabilidade iguais às de um constante de proporcionalidade. Por exemplo, a distribuição binomial e a distribuição binomial negativa para sucessos e n tentativas têm uma probabilidade Lkn proporcional ap k p n - kL(p|n,k)pkpnk
Sextus Empiricus
3

Esboço dos testes LR para dados exponenciais.

Seja X1,X2,,Xn uma amostra aleatória de Exp(rate=λ), modo que E(Xi)=μ=1/λ. Parax>0, a função de densidade éf(x)=λeλx e o CDF éF(x)=1eλx.

1. A estatística do teste é uma amostra mínima.

Seja V=X(1)=minn(Xi).Então VExp(nλ).Como esboço da prova,

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
modo que P(Vv)=1enλv, para v>0.

Para testar H9:μμ0 contra Ha:μ>μ0, a nível α=5%, nós consideramos V como uma única observação da sua distribuição exponencial. Concluímos que a razão de verossimilhança de log indica rejeição quando V>c, onde P(V>c|μ=μ0)=0.05.

Para o caso específico em que n=100 e μ0=10,λ0=0.1, temos taxa exponencial10=n/μ0=100/10=10, de modo quec=0.2295 de R, em que a distribuição exponencial é parametrizada pela taxa.

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

Consequentemente, a potência contra a alternativa μa=100 (taxa n/μa=1) é de cerca de 74%.

1 - pexp(0.2996, 1)
[1] 0.7411146

2. Estatística de teste é a média da amostra.

As notas da classe Oxford U. (segunda página) mostram que o teste da razão de verossimilhança de H0:μμ0 contra H0:μ>μ0 no nível de significância de 5% rejeita X¯>c, onde P(X¯>c|μ=μ0)=0.5. Além disso, pode-se mostrar usando funções geradoras de momento que X¯Gamma(n,nλ).

Para o caso específico em que n=100 e μ0=10,λ0=0.1, temosX¯Gamma(100,10), modo quec=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Consequentemente, a potência contra a alternativa μa=14 é de cerca de 95,6%.

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Clearly, for purposes of testing hypotheses about the exponential mean μ, the information in the sufficient statistic X¯ is much greater than the information in the sample minimum.

BruceET
fonte
I don't think this address the question at all.Are the two likelihoods proportional? You first need to show the likelihood of the two experiments are proportional, otherwise the likelihood principle does not apply. Second, in this example the two tests lead to the same conclusion, so it's even more underwhelming than the example of the binomial versus negative binomial.
statslearner2
I just checked the document, the likelihoods are not proportional, since the first likelihood has v in the exponent and the other has xi, thus the likelihood principle should not apply here, it's fine for the two tests to lead to different conclusions according to the likelihood principle.
statslearner2
2
Bruce, just to clarify what the liklihood principle states: it says that if you have two experiments where the likelihoods differ only by a constant, then you should derive the same conclusion from them. This happens in the binomial versus negative binomial case, where they differ only in the binomial coefficient part (constant). Your example shows two tests where their likelihoods do not differ only by a constant, so the LP does not apply.
statslearner2
@statslearner2 the likelihood function for observing a sample x1,...,xn is:
f(x1,...,xn)=i=1nλeλxi
This is the same whether you select the minimum or the mean as a criteria to perform the test. The violation that occurs here can be seen as the type in which the definition of 'extreme cases' is different and the integration to compute the p-value is done differently.
Sextus Empiricus
3

Violation by different pdf functions f(x,θ) and g(x,θ)

This case will be an example of 'violation' because the probability distribution functions f(x,θ) g(x,θ) are intrinsically different. Even when f and g, differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".


The coin flip with or without optional stopping rule

The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


More extreme example

Consider some measurement of X which is distributed as

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

where a is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x.

For any given x and a the likelihood function is proportional to the same function that is independent from a:

  • If x<1 then L(θ|x)1
  • If x1 then L(θ|x)θexp(θ(x1))

But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value of a). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is

P(X>2|θ=1)=(1a)exp(1)


Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed value x.

The p-value is not calculated from the likelihood f(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.

p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.

Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.

To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.

Sextus Empiricus
fonte
Regarding Case 1: I think choosing a different test statistic can (should?) be seen as changing the likelihood function.
amoeba says Reinstate Monica
2
@MartijnWeterings yes it is choosing a different test statistics, what matters is the likelihood of the statistics, not of the data. Otherwise I can take a sequence of 100 flips and compute several statsistics: number of runs of heads, number of alternations of heads and tails. None of this violates the LP.
statslearner2
You need to pick two statistics that will have proportional likelihoods, such as the number of trials until 3 success or the number of successes in n trials etc.
statslearner2
1

Here is an example adapted from Statistical decision theory and Bayesian analysis by James O. Berger (Second edition page 29).

Say that two species of wasps can be distinguished by the number of notches on the wings (call this x) and by the number of black rings around the abdomen (call this y). The distribution of the characters in the two species (labelled H0 and H1) are as follows:

Table adapted from Statistical decision theory and Bayesian analysis by James O. Berger.

Say that we find a specimen with 1 notch on the wings and 1 ring around the abdomen. The weight of evidence if 100 times bigger in favor of H1 against H0 for both characters.

Now if someone wanted to set up a test for H0 at 5% level, the decision rule would be for the first character “accept H0 if there is 1 notch on the wing, otherwise reject it”, and for the second character “accept H0 if there are 3 rings around the abdomen, otherwise reject it”. There are many other possibilities, but these ones are most powerful tests at this level. Yet, they lead to different conclusions for both characters.


Note: one could of course set up a test with the rule “accept H0 if there are 1 or 3 rings around the abdomen, otherwise reject it”. The question is whether we prefer a test at 5% level with type II risk 0, or a test at 4.9% level with type II risk 0.00001. The difference is so small that we would probably not care, but as I understand it, this is the core of the argument for the likelihood principle: it is not a good idea to make the result depend on something that seems irrelevant.


The likelihood functions are proportional, and yet the p-value of x=1 is 0.95, and that of y=1 is 0.001 (assuming that we reject H0 with events of the form yα). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.

Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.

gui11aume
fonte