Existe um exemplo em que dois testes defensáveis diferentes com probabilidades proporcionais levariam um a inferências marcadamente diferentes (e igualmente defensáveis), por exemplo, onde os valores-p estão em ordem de grandeza distante, mas o poder de alternativas é semelhante?
Todos os exemplos que vejo são muito tolos, comparando um binômio com um binômio negativo, em que o valor p do primeiro é de 7% e do segundo de 3%, que são "diferentes" apenas na medida em que alguém toma decisões binárias sobre limites arbitrários de significância como 5% (que, a propósito, é um padrão bastante baixo para inferência) e nem se preocupa em olhar para o poder. Se eu mudar o limite de 1%, por exemplo, ambos levarão à mesma conclusão.
Eu nunca vi um exemplo em que isso levaria a inferências marcadamente diferentes e defensáveis . Existe esse exemplo?
Estou perguntando, porque vi tanta tinta gasta nesse tópico, como se o Princípio da Probabilidade fosse algo fundamental nos fundamentos da inferência estatística. Mas se o melhor exemplo que temos são exemplos tolos como o descrito acima, o princípio parece completamente inconseqüente.
Portanto, estou procurando um exemplo muito convincente, em que, se alguém não seguir o LP, o peso da evidência apontaria esmagadoramente em uma direção em um teste, mas, em um teste diferente com probabilidade proporcional, o peso da evidência seria estar esmagadoramente apontando em uma direção oposta, e ambas as conclusões parecem sensatas.
Idealmente, poderíamos demonstrar que podemos ter respostas arbitrariamente distantes, mas sensíveis, como testes com versus com probabilidades proporcionais e poder equivalente para detectar a mesma alternativa.
PS: A resposta de Bruce não aborda a questão.
fonte
Respostas:
Pense em uma situação hipotética quando uma hipótese nula de ponto é verdadeira, mas continua a amostragem atép < 0,05 (isso sempre acontecerá mais cedo ou mais tarde, ou seja, ocorrerá com probabilidade 1) e depois decide interromper o teste e rejeitar o nulo. Esta é uma regra de parada reconhecidamente extrema, mas considere-a pelo bem do argumento.
Esse procedimento idiota terá 100% de taxa de erro tipo I, mas não há nada errado com ele, de acordo com o princípio da verossimilhança.
Eu diria que isso conta como "realmente" importante. É claro que você pode escolher qualquerα nesse argumento. Os bayesianos podem usar um corte fixo no fator Bayes, se assim o desejarem. A mesma lógica se aplica. A principal lição aqui é que você não pode aderir ao LP e tem uma garantia de taxa de erro. Nao tem almoço gratis.
fonte
Isenção de responsabilidade: acredito que esta resposta esteja no centro de todo o argumento, por isso vale a pena discutir, mas ainda não explorei completamente a questão. Como tal, congratulo-me com correções, aperfeiçoamentos e comentários.
O aspecto mais importante diz respeito aos dados coletados sequencialmente. Por exemplo, suponha que você observou resultados binários e viu 10 sucessos e 5 falhas. O princípio da probabilidade diz que você deve chegar à mesma conclusão sobre a probabilidade de sucesso, independentemente de coletar dados até ter 10 sucessos (binômio negativo) ou executar 15 tentativas, das quais 10 foram sucessos (binomial) .
Por que isso tem alguma importância?
Porque, de acordo com o princípio da probabilidade (ou pelo menos uma certa interpretação do mesmo), é totalmente bom deixar os dados influenciarem quando você vai parar de coletar dados, sem precisar alterar suas ferramentas de inferência.
Conflito com métodos sequenciais
A idéia de que o uso de seus dados para decidir quando parar de coletar dados sem alterar suas ferramentas inferenciais é completamente contrário aos métodos tradicionais de análise seqüencial. O exemplo clássico disso é com os métodos usados em ensaios clínicos. Para reduzir a exposição potencial a tratamentos prejudiciais, os dados são frequentemente analisados em momentos intermediários antes da análise ser feita. Se o teste ainda não terminou, mas os pesquisadores já têm dados suficientes para concluir que o tratamento funciona ou é prejudicial, a ética médica nos diz que devemos interromper o teste; se o tratamento funcionar, é ético interromper o estudo e começar a disponibilizá-lo para pacientes que não fazem parte do estudo. Se for prejudicial, é mais ético parar, para que paremos de expor os pacientes do estudo a um tratamento prejudicial.
Agora, o problema é que começamos a fazer várias comparações; portanto, aumentamos nossa taxa de erro do tipo I se não ajustarmos nossos métodos para levar em conta as múltiplas comparações. Isso não é exatamente o mesmo que os problemas tradicionais de comparações múltiplas, pois são realmente comparações parciais múltiplas (ou seja, se analisarmos os dados uma vez com 50% dos dados coletados e uma vez com 100%, essas duas amostras claramente não são independentes!) , mas, em geral, quanto mais comparações fizermos, mais precisamos alterar nossos critérios para rejeitar a hipótese nula para preservar a taxa de erro tipo I, com mais comparações planejadas exigindo mais evidências para rejeitar a nula.
Isso coloca os pesquisadores clínicos em um dilema; deseja verificar seus dados com frequência, mas aumente as evidências necessárias para rejeitar o valor nulo ou verifique com pouca frequência seus dados, aumentando seu poder, mas potencialmente não agindo da maneira ideal em relação à ética médica (por exemplo, atrasar o produto no mercado ou expor desnecessariamente os pacientes a tratamentos prejudiciais).
É meu entendimento (talvez equivocado) de que o princípio da probabilidade parece nos dizer que não importa quantas vezes verifiquemos os dados, devemos fazer a mesma inferência. Isso basicamente diz que todas as abordagens para o desenho de teste seqüencial são completamente desnecessárias; basta usar o princípio da probabilidade e parar quando tiver coletado dados suficientes para concluir. Como você não precisa alterar seus métodos de inferência para ajustar o número de análises que preparou, não há dilema de troca entre o número de vezes verificado e a potência. Bam, todo o campo da análise sequencial é resolvido (de acordo com esta interpretação).
Pessoalmente, o que é muito confuso para mim é que um fato bem conhecido no campo do design seqüencial, mas bastante sutil, é que a probabilidade da estatística final do teste é amplamente alterada pela regra de parada; basicamente, as regras de parada aumentam a probabilidade de maneira descontínua nos pontos de parada. Aqui está um enredo dessa distorção; a linha tracejada é o PDF da estatística final do teste sob o nulo se os dados forem analisados apenas após todos os dados serem coletados, enquanto a linha sólida fornecerá a distribuição sob o nulo da estatística do teste se você verificar os dados 4 vezes com um determinado regra.
Dito isso, entendo que o princípio da probabilidade parece implicar que podemos jogar fora tudo o que sabemos sobre o design seqüencial freqüentista e esquecer quantas vezes analisamos nossos dados. Claramente, as implicações disso, especialmente no campo dos desenhos clínicos, são enormes. No entanto, não pensei em como eles justificam ignorar como as regras de parada alteram a probabilidade da estatística final.
Alguma discussão leve pode ser encontrada aqui , principalmente nos slides finais.
fonte
Esboço dos testes LR para dados exponenciais.
SejaX1,X2,…,Xn uma amostra aleatória de
Exp(rate=λ), modo que E(Xi)=μ=1/λ.
Parax>0, a função de densidade éf(x)=λe−λx e o CDF éF(x)=1−e−λx.
1. A estatística do teste é uma amostra mínima.
SejaV=X(1)=minn(Xi). Então
V∼Exp(nλ). Como esboço da prova,
P(V>v)=P(X1>v,…,Xn>v)=[e−λv]n=e−nλv,
modo que P(V≤v)=1−e−nλv, para v>0.
Para testarH9:μ≤μ0 contra Ha:μ>μ0, a nível α=5%, nós consideramos V como uma única observação da sua distribuição exponencial. Concluímos que a razão de verossimilhança de log indica rejeição quando V>c, onde
P(V>c|μ=μ0)=0.05.
Para o caso específico em quen=100 e μ0=10,λ0=0.1,
temos taxa exponencial10=n/μ0=100/10=10, de modo quec=0.2295
de R, em que a distribuição exponencial é parametrizada pela taxa.
Consequentemente, a potência contra a alternativaμa=100 (taxa n/μa=1) é de cerca de 74%.
2. Estatística de teste é a média da amostra.
As notas da classe Oxford U. (segunda página) mostram que o teste da razão de verossimilhança deH0:μ≤μ0 contra H0:μ>μ0
no nível de significância de 5% rejeita X¯>c, onde P(X¯>c|μ=μ0)=0.5.
Além disso, pode-se mostrar usando funções geradoras de momento que
X¯∼Gamma(n,nλ).
Para o caso específico em quen=100 e μ0=10,λ0=0.1, temosX¯∼Gamma(100,10), modo quec=11.7.
Consequentemente, a potência contra a alternativaμa=14 é de cerca de 95,6%.
Clearly, for purposes of testing hypotheses about the exponential meanμ, the information in the sufficient statistic X¯ is much greater than the
information in the sample minimum.
fonte
Violation by different pdf functionsf(x,θ) and g(x,θ)
This case will be an example of 'violation' because the probability distribution functionsf(x,θ) g(x,θ) are intrinsically different. Even when f and g , differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".
The coin flip with or without optional stopping rule
The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).
More extreme example
Consider some measurement ofX which is distributed as
wherea is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x .
For any givenx and a the likelihood function is proportional to the same function that is independent from a :
But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value ofa ). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is
Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed valuex .
The p-value is not calculated from the likelihoodf(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.
p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.
Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.
To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.
fonte
Here is an example adapted from Statistical decision theory and Bayesian analysis by James O. Berger (Second edition page 29).
Say that two species of wasps can be distinguished by the number of notches on the wings (call thisx ) and by the number of black rings around the abdomen (call this y ). The distribution of the characters in the two species (labelled H0 and H1 ) are as follows:
Say that we find a specimen with 1 notch on the wings and 1 ring around the abdomen. The weight of evidence if 100 times bigger in favor ofH1 against H0 for both characters.
Now if someone wanted to set up a test forH0 at 5% level, the decision rule would be for the first character “accept H0 if there is 1 notch on the wing, otherwise reject it”, and for the second character “accept H0 if there are 3 rings around the abdomen, otherwise reject it”. There are many other possibilities, but these ones are most powerful tests at this level. Yet, they lead to different conclusions for both characters.
Note: one could of course set up a test with the rule “acceptH0 if there are 1 or 3 rings around the abdomen, otherwise reject it”. The question is whether we prefer a test at 5% level with type II risk 0, or a test at 4.9% level with type II risk 0.00001. The difference is so small that we would probably not care, but as I understand it, this is the core of the argument for the likelihood principle: it is not a good idea to make the result depend on something that seems irrelevant.
The likelihood functions are proportional, and yet the p-value ofx=1 is 0.95, and that of y=1 is 0.001 (assuming that we reject H0 with events of the form y≤α ). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.
Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.
fonte