Minha pergunta no título é auto-explicativa, mas eu gostaria de dar algum contexto.
A ASA divulgou uma declaração no início desta semana " sobre valores-p: contexto, processo e objetivo ", descrevendo vários equívocos comuns sobre o valor-p e exortando cautela ao não usá-lo sem contexto e pensamento (o que pode ser dito sobre qualquer método estatístico, realmente).
Em resposta à ASA, o professor Matloff escreveu uma postagem no blog intitulada: Após 150 anos, a ASA diz não aos valores-p . Então o professor Benjamini (e eu) escrevemos um post de resposta intitulado Não é culpa dos valores-p - reflexões sobre a recente declaração da ASA . Em resposta, o professor Matloff perguntou em um post de acompanhamento :
O que eu gostaria de ver [...] é - um exemplo bom e convincente no qual os valores p são úteis. Isso realmente tem que ser o resultado final.
Para citar seus dois principais argumentos contra a utilidade do valor- :
Com amostras grandes, os testes de significância surgem em desvios minúsculos e sem importância da hipótese nula.
Quase nenhuma hipótese nula é verdadeira no mundo real, portanto, executar um teste de significância sobre elas é absurdo e bizarro.
Estou muito interessado no que outros membros da comunidade com validação cruzada pensam dessa questão / argumentos e do que pode constituir uma boa resposta a ela.
fonte
Respostas:
Vou considerar os dois pontos de Matloff:
A lógica aqui é que, se alguém relata altamente significativo , somente deste número não podemos dizer se o efeito é grande e importante ou irrelevantemente pequeno (como pode acontecer com o grande ). Acho esse argumento estranho e não consigo me conectar a ele, porque nunca vi um estudo que reportasse um valor- sem relatar [um equivalente ao] tamanho do efeito. Os estudos que eu li diriam, por exemplo, (e geralmente mostram em uma figura) que o grupo A tinha essa e aquela média, o grupo B tinha essa e essa média e eram significativamente diferentes com esse e com esse valor- . Obviamente, posso julgar por mim mesmo se a diferença entre A e B é grande ou pequena.p=0.0001 n p p
(Nos comentários, @RobinEkman me indicou vários estudos altamente citados por Ziliak & McCloskey ( 1996 , 2004 ) que observaram que a maioria dos artigos de economia supera a "significância estatística" de alguns efeitos sem prestar muita atenção ao tamanho do efeito e seu "significado prático" (que, segundo Z&MS, pode ser minúsculo). Essa é claramente uma prática ruim. No entanto, como o @MatteoS explicou abaixo, os tamanhos de efeito (estimativas de regressão) sempre são relatados, portanto, meu argumento permanece.)
Essa preocupação também é muitas vezes manifestada, mas aqui novamente eu não posso realmente me conectar a ela. É importante perceber que os pesquisadores não aumentam seu ad infinitum . No ramo da neurociência com o qual estou familiarizado, as pessoas farão experimentos com ou talvez , digamos, com ratos. Se não houver efeito a ser observado, a conclusão é que o efeito não é grande o suficiente para ser interessante. Ninguém que eu conheça iria sobre a criação, formação, gravação e sacrificar ratos para mostrar que não é algum efeito estatisticamente significativa, mas pequena. E, embora possa ser verdade que quase nenhum efeito real seja exatamente zero, én n=20 n=50 n=5000 certamente é verdade que muitos efeitos reais são pequenos o suficiente para serem detectados com tamanhos razoáveis de amostra que os pesquisadores razoáveis estão realmente usando, exercitando seu bom senso.
(Existe uma preocupação válida de que os tamanhos das amostras geralmente não são grandes o suficiente e que muitos estudos são insuficientes. Portanto, talvez os pesquisadores de muitas áreas devam visar, digamos, vez de Ainda assim, qualquer que seja o tamanho da amostra , limita o tamanho do efeito que o estudo tem poder para detectar.)n=100 n=20
Além disso, não acho que concordo que quase nenhuma hipótese nula seja verdadeira, pelo menos não nos estudos randomizados experimentais (em oposição aos observacionais). Duas razões:
Muitas vezes há uma direcionalidade na previsão que está sendo testada; O pesquisador pretende demonstrar que algum efeito é positivo . Por convenção, isso geralmente é feito com um teste bilateral, assumindo um ponto nulo mas, na verdade, esse é um teste unilateral que tenta rejeitar . (A resposta de @ CliffAB, +1, faz uma observação relacionada.) E isso certamente pode ser verdade.δ>0 H0:δ=0 H0:δ<0
Mesmo falando sobre o ponto "nulo" nulo , não vejo por que eles nunca são verdadeiros. Algumas coisas simplesmente não estão causalmente relacionadas a outras. Veja os estudos de psicologia que não estão se reproduzindo nos últimos anos: pessoas sentindo o futuro; as mulheres se vestem de vermelho ao ovular; imprimindo com palavras relacionadas à velhice que afetam a velocidade da caminhada; etc. Pode muito bem ser que não haja links causais aqui e, portanto, os verdadeiros efeitos são exatamente zero.H0:δ=0
Ele mesmo, Norm Matloff sugere usar intervalos de confiança em vez de valores- porque eles mostram o tamanho do efeito. Intervalos de confiança são bons, mas observe uma desvantagem de um intervalo de confiança em comparação com o valor : o intervalo de confiança é relatado para um valor de cobertura específico, por exemplo, . Ver um intervalo de confiança de não me diz quão amplo seria um intervalo de confiança de . Mas um único valor pode ser comparado a qualquer e diferentes leitores podem ter diferentes alfas em mente.p p 95% 95% 99% p α
Em outras palavras, acho que para alguém que gosta de usar intervalos de confiança, um valor- é uma estatística adicional útil e significativa a ser relatada.p
Gostaria de fazer uma longa citação sobre a utilidade prática dos valores- do meu blogueiro favorito Scott Alexander; ele não é estatístico (ele é psiquiatra), mas tem muita experiência com a leitura de literatura médica / psicológica e com o exame minucioso das estatísticas nela contidas. A citação é de sua postagem no blog sobre o estudo de chocolate falso, que eu recomendo. Ênfase minha.p
Para uma discussão mais aprofundada de várias alternativas aos valores de (incluindo os bayesianos), veja minha resposta no ASA discute as limitações dos valores de - quais são as alternativas?p p
fonte
Eu me ofendo com as duas idéias a seguir:
É um argumento tão confuso sobre valores-p. O problema fundamental que motivou o desenvolvimento das estatísticas vem de ver uma tendência e querer saber se o que vemos é por acaso ou representativo de uma tendência sistemática.
Com isso em mente, é verdade que nós, como estatísticos, normalmente não acreditamos que uma hipótese nula seja verdadeira (ou seja, , em que é a diferença média em algumas medidas entre dois grupos). No entanto, com testes nos dois lados, não sabemos qual hipótese alternativa é verdadeira! Em um teste de dois lados, podemos estar dispostos a dizer que temos 100% de certeza de que antes de ver os dados. Mas não sabemos se ou . Portanto, se executarmos nosso experimento e concluirmos que , rejeitamos (como diria Matloff; conclusão inútil), mas, mais importante, também rejeitamosHo:μd=0 μd μd≠0 μd>0 μd<0 μd>0 μd=0 μd<0 (digo; conclusão útil). Como @amoeba apontou, isso também se aplica a testes unilaterais com potencial para serem bilaterais, como testar se um medicamento tem um efeito positivo.
É verdade que isso não diz a magnitude do efeito. Mas indica a direção do efeito. Então não vamos colocar a carroça diante do cavalo; Antes de começar a tirar conclusões sobre a magnitude do efeito, quero ter certeza de que tenho a direção correta do efeito!
Da mesma forma, o argumento de que "os valores-p atacam efeitos minúsculos e sem importância" parece-me bastante errado. Se você pensa em um valor-p como uma medida de quanto os dados suportam a direção da sua conclusão, é claro que deseja que ele capte pequenos efeitos quando o tamanho da amostra for grande o suficiente. Dizer que isso significa que eles não são úteis é muito estranho para mim: esses campos de pesquisa que sofreram valores-p são os mesmos que têm tantos dados que não precisam avaliar a confiabilidade de suas estimativas? Da mesma forma, se o seu problema for realmente o de que os valores p " efeito", você pode simplesmente testar as hipóteses eH 2 : µ d < - 1H1:μd>1 H2:μd<−1 (supondo que você acredite que 1 seja o tamanho mínimo de efeito importante). Isso é feito frequentemente em ensaios clínicos.
Para ilustrar isso, suponha que apenas analisamos os intervalos de confiança e descartamos os valores de p. Qual é a primeira coisa que você verifica no intervalo de confiança? Se o efeito foi estritamente positivo (ou negativo) antes de levar os resultados muito a sério. Como tal, mesmo sem valores-p, estaríamos informalmente realizando testes de hipóteses.
Finalmente, no que diz respeito à solicitação do OP / Matloff, "Dê um argumento convincente de que os valores-p são significativamente melhores", acho que a pergunta é um pouco estranha. Digo isso porque, dependendo da sua visão, ela se responde automaticamente ("dê-me um exemplo concreto em que testar uma hipótese é melhor do que não testá-la"). No entanto, um caso especial que eu acho quase inegável é o dos dados do RNAseq. Nesse caso, estamos normalmente analisando o nível de expressão do RNA em dois grupos diferentes (isto é, doentes, controles) e tentando encontrar genes que são expressos diferencialmente nos dois grupos. Nesse caso, o tamanho do efeito em si não é realmente significativo. Isso ocorre porque os níveis de expressão de genes diferentes variam tanto que, para alguns genes, ter uma expressão 2x mais alta não significa nada, enquanto em outros genes fortemente regulados, a expressão 1,2x mais alta é fatal. Portanto, a magnitude real do tamanho do efeito é realmente um pouco desinteressante ao comparar os grupos pela primeira vez. Mas vocêrealmente, realmente quero saber se a expressão do gene muda entre os grupos e a direção da mudança! Além disso, é muito mais difícil resolver os problemas de várias comparações (para as quais você pode estar fazendo 20.000 delas em uma única execução) com intervalos de confiança do que com valores-p.
fonte
Perdoe meu sarcasmo, mas um bom exemplo óbvio da utilidade dos valores-p está em ser publicado. Eu pedi a um pesquisador que me desse um valor p ... ele havia introduzido um transgene em uma única planta para melhorar o crescimento. A partir dessa planta, ele produziu vários clones e escolheu o maior clone, um exemplo em que toda a população é enumerada. Sua pergunta, o revisor deseja ver um valor-p de que esse clone é o maior. Mencionei que não há necessidade de estatísticas neste caso, pois ele tinha toda a população em mãos, mas sem sucesso.
Mais seriamente, na minha humilde opinião, do ponto de vista acadêmico, acho essas discussões interessantes e estimulantes, assim como os debates freqüentistas x bayesianos de alguns anos atrás. Traz as diferentes perspectivas das melhores mentes nesse campo e ilumina as muitas suposições / armadilhas associadas à metodologia que geralmente não são prontamente acessíveis.
Na prática, acho que, em vez de discutir sobre a melhor abordagem e substituir um critério defeituoso por outro, como já foi sugerido em outro lugar, para mim é mais uma revelação de um problema sistêmico subjacente e o foco deve estar na tentativa de encontrar o melhor soluções. Por exemplo, pode-se apresentar situações em que os valores de p e o IC se complementam e as circunstâncias em que um é mais confiável que o outro. No grande esquema das coisas, entendo que todas as ferramentas inferenciais têm suas próprias deficiências que precisam ser entendidas em qualquer aplicação, a fim de não impedir o progresso em direção ao objetivo final ... a compreensão mais profunda do sistema de estudo.
fonte
Darei a você o exemplo de como os valores-p devem ser usados e relatados. É um relatório muito recente sobre a busca de uma partícula misteriosa no Large Hadron Collider (LHC) no CERN .
Alguns meses atrás, houve muita conversa animada nos círculos da física de alta energia sobre a possibilidade de uma grande partícula ter sido detectada no LHC. Lembre-se de que isso ocorreu após a descoberta do bóson de Higgs . Aqui está o trecho do artigo "Pesquise ressonâncias decaindo em pares de fótons em colisões de 3,2 fb-1 de pp em √s = 13 TeV com o detector ATLAS" de The ATLAS Collaboration 15 de dezembro de 2015 e meus comentários a seguir:
O que eles estão dizendo aqui é que a contagem de eventos excede o que o Modelo Padrão prevê. A figura abaixo do artigo mostra os valores p de eventos em excesso em função da massa de uma partícula. Você vê como o valor p mergulha em torno de 750 GeV. Então, eles estão dizendo que existe a possibilidade de uma nova partícula ser detectada com uma massa igual a 750 Giga eV . Os valores de p na figura são calculados como "locais". Os valores p globais são muito mais altos. Isso não é importante para a nossa conversa.
O importante é que os valores-p ainda não sejam "baixos o suficiente" para os físicos declararem uma descoberta, mas "baixos o suficiente" para ficarem animados. Então, eles planejam continuar contando e esperando que esses valores p diminuam ainda mais.
Aproxime alguns meses para agosto de 2016, Chicago, uma conferência sobre HEP . Foi apresentado um novo relatório "Pesquisa pela produção ressonante de pares de fótons de alta massa usando 12,9 fb-1 de colisões próton-próton a √ s = 13 TeV e interpretação combinada de pesquisas a 8 e 13 TeV" por The CMS Collaboration neste momento. Aqui estão os trechos dos meus comentários novamente:
Então, os caras continuaram coletando eventos e agora esse pontinho de excesso de eventos em 750 GeV se foi. A figura abaixo do documento mostra os valores-p e você pode ver como o valor-p aumentou em comparação com o primeiro relatório. Então, eles concluem tristemente que nenhuma partícula é detectada a 750 GeV.
Eu acho que é assim que os valores p devem ser usados. Eles totalmente fazem sentido e claramente funcionam. Penso que a razão é que as abordagens freqüentistas são inerentemente naturais na física. Não há nada subjetivo na dispersão de partículas. Você coleta uma amostra grande o suficiente e recebe um sinal claro, se estiver lá.
Se você realmente entender como exatamente os valores p são calculados aqui, leia este artigo : "Fórmulas assintóticas para testes baseados em probabilidade da nova física", de Cowan et al.
fonte
As outras explicações estão bem, eu só queria tentar dar uma resposta breve e direta à pergunta que surgiu na minha cabeça.
Verificando o desequilíbrio covariado em experiências aleatórias
Sua segunda afirmação (sobre hipóteses nulas irrealistas) não é verdadeira quando estamos verificando o equilíbrio covariável em experimentos randomizados, onde sabemos que a randomização foi feita corretamente. Nesse caso, sabemos que a hipótese nula é verdadeira. Se obtivermos uma diferença significativa entre o grupo de tratamento e controle em alguma covariável - depois de controlar várias comparações, é claro - isso nos diz que tivemos uma "má sorte" na randomização e talvez não devamos confiar na estimativa causal, pois Muito de. Isso ocorre porque podemos pensar que nossas estimativas do efeito do tratamento a partir dessa randomização específica de "empate" estão mais distantes dos efeitos reais do tratamento do que as estimativas obtidas de um "empate".
Eu acho que esse é um uso perfeito dos valores-p. Ele usa a definição de valor-p: a probabilidade de obter um valor igual ou mais extremo, dada a hipótese nula. Se o resultado for altamente improvável, de fato tivemos um "empate ruim".
Tabelas / estatísticas de equilíbrio também são comuns ao usar dados observacionais para tentar fazer inferências causais (por exemplo, correspondência, experimentos naturais). Embora, nesses casos, as tabelas de balanço estejam longe de serem suficientes para justificar um rótulo "causal" para as estimativas.
fonte
O controle das taxas de erro é semelhante ao controle de qualidade na produção. Um robô em uma linha de produção tem uma regra para decidir que uma peça está com defeito, o que garante não exceder uma taxa especificada de peças defeituosas que passam despercebidas. Da mesma forma, uma agência que toma decisões para aprovação de medicamentos com base em valores P "honestos" tem como manter a taxa de falsas rejeições em um nível controlado, por definição, através da construção freqüente de testes a longo prazo. Aqui, "honesto" significa ausência de preconceitos não controlados, seleções ocultas etc.
No entanto, nem o robô nem a agência têm interesse pessoal em qualquer medicamento ou peça em particular que atravessa o transportador de montagem. Na ciência, por outro lado, nós, como investigadores individuais, nos preocupamos mais com a hipótese específica que estudamos, e não com a proporção de alegações espúrias em nosso diário favorito ao qual nos submetemos. Nem a magnitude do valor P nem os limites de um intervalo de confiança (IC) se referem diretamente à nossa pergunta sobre a credibilidade do que relatamos. Quando construímos os limites do IC, deveríamos dizer que o único significado dos dois números é que, se outros cientistas fizerem o mesmo tipo de computação do IC em seus estudos, a cobertura de 95% ou qualquer outra cobertura será mantida em vários estudos como um todo. .
Nessa perspectiva, acho irônico que os valores-P estejam sendo "banidos" pelos periódicos, considerando que, no meio da crise de replicabilidade, eles têm mais valor para os editores de revistas do que para os pesquisadores que enviam seus trabalhos, como uma maneira prática de manter os valores-P. taxa de descobertas espúrias relatadas por um diário na baía, a longo prazo. Os valores P são bons para filtrar ou, como IJ Good escreveu, são bons para proteger a extremidade traseira do estatístico, mas não tanto a parte traseira do cliente.
PS: Sou um grande fã da idéia de Benjamini e Hochberg de levar a expectativa incondicional entre estudos com vários testes. Sob o "nulo" global, o FDR "freqüentador" ainda é controlado - estudos com uma ou mais rejeições aparecem em um periódico a uma taxa controlada, embora, nesse caso, qualquer estudo em que algumas rejeições tenham sido efetivamente feitas tenha a proporção de falsas rejeições que é igual a um.
fonte
Concordo com Matt que os valores de p são úteis quando a hipótese nula é verdadeira.
O exemplo mais simples que consigo pensar é testar um gerador de números aleatórios. Se o gerador estiver funcionando corretamente, você poderá usar qualquer tamanho de amostra apropriado das realizações e, ao testar o ajuste em muitas amostras, os valores de p devem ter uma distribuição uniforme. Se o fizerem, é uma boa evidência para uma implementação correta. Caso contrário, você sabe que cometeu um erro em algum lugar.
Outras situações semelhantes ocorrem quando você sabe que uma variável estatística ou aleatória deve ter uma certa distribuição (novamente, o contexto mais óbvio é a simulação). Se os valores-p forem uniformes, você encontrou suporte para uma implementação válida. Caso contrário, você sabe que tem um problema em algum lugar do seu código.
fonte
Eu posso pensar no exemplo em que os valores p são úteis, na Física Experimental de Alta Energia. Veja a Fig. 1 Este gráfico é retirado deste artigo: Observação de uma nova partícula na busca do bóson de Modelo Padrão Higgs com o detector ATLAS no LHC
fonte