Qual é um exemplo bom e convincente no qual os valores p são úteis?

64

Minha pergunta no título é auto-explicativa, mas eu gostaria de dar algum contexto.

A ASA divulgou uma declaração no início desta semana " sobre valores-p: contexto, processo e objetivo ", descrevendo vários equívocos comuns sobre o valor-p e exortando cautela ao não usá-lo sem contexto e pensamento (o que pode ser dito sobre qualquer método estatístico, realmente).

Em resposta à ASA, o professor Matloff escreveu uma postagem no blog intitulada: Após 150 anos, a ASA diz não aos valores-p . Então o professor Benjamini (e eu) escrevemos um post de resposta intitulado Não é culpa dos valores-p - reflexões sobre a recente declaração da ASA . Em resposta, o professor Matloff perguntou em um post de acompanhamento :

O que eu gostaria de ver [...] é - um exemplo bom e convincente no qual os valores p são úteis. Isso realmente tem que ser o resultado final.

Para citar seus dois principais argumentos contra a utilidade do valor- :p

  1. Com amostras grandes, os testes de significância surgem em desvios minúsculos e sem importância da hipótese nula.

  2. Quase nenhuma hipótese nula é verdadeira no mundo real, portanto, executar um teste de significância sobre elas é absurdo e bizarro.

Estou muito interessado no que outros membros da comunidade com validação cruzada pensam dessa questão / argumentos e do que pode constituir uma boa resposta a ela.

Tal Galili
fonte
5
Observe outros dois threads relacionados a este tópico: stats.stackexchange.com/questions/200500/… e stats.stackexchange.com/questions/200745/…
Tim
2
Obrigado Tim. Suspeito que minha pergunta seja diferente o suficiente para que ela mereça seu próprio segmento (principalmente porque não foi respondida nos dois que você mencionou). Ainda assim, os links são muito interessantes!
Tal Galili
3
Ele merece e é interessante (daí a minha +1), I desde as ligações apenas FYI :)
Tim
3
Devo dizer que ainda não li o que Matloff escreveu sobre o tópico, mas ainda assim, para que sua pergunta se mantenha por conta própria, você pode resumir brevemente por que ele encontra um exemplo padrão de uso de valores p não " bom / convincente "? Por exemplo, alguém quer estudar se uma certa manipulação experimental muda o comportamento do animal em uma direção específica; portanto, um grupo experimental e um grupo controle são medidos e comparados. Como leitor de um artigo desse tipo, fico feliz em ver o valor-p (ou seja, eles são úteis para mim), porque, se for grande, não preciso prestar atenção. Este exemplo não é suficiente?
Ameba diz Reinstate Monica
11
@amoeba - ele os lista aqui: matloff.wordpress.com/2016/03/07/… ----- Citando seus argumentos: 1) com amostras grandes, testes de significância surgem em desvios minúsculos e sem importância da hipótese nula. 2) Quase nenhuma hipótese nula é verdadeira no mundo real, portanto, executar um teste de significância nelas é absurdo e bizarro. ----- Eu tenho minha própria opinião sobre isso (que gostaria de formalizar mais tarde), mas tenho certeza de que outros terão maneiras perspicazes de responder a isso.
precisa

Respostas:

44

Vou considerar os dois pontos de Matloff:

  1. Com amostras grandes, os testes de significância surgem em desvios minúsculos e sem importância da hipótese nula.

    A lógica aqui é que, se alguém relata altamente significativo , somente deste número não podemos dizer se o efeito é grande e importante ou irrelevantemente pequeno (como pode acontecer com o grande ). Acho esse argumento estranho e não consigo me conectar a ele, porque nunca vi um estudo que reportasse um valor- sem relatar [um equivalente ao] tamanho do efeito. Os estudos que eu li diriam, por exemplo, (e geralmente mostram em uma figura) que o grupo A tinha essa e aquela média, o grupo B tinha essa e essa média e eram significativamente diferentes com esse e com esse valor- . Obviamente, posso julgar por mim mesmo se a diferença entre A e B é grande ou pequena.p=0.0001npp

    (Nos comentários, @RobinEkman me indicou vários estudos altamente citados por Ziliak & McCloskey ( 1996 , 2004 ) que observaram que a maioria dos artigos de economia supera a "significância estatística" de alguns efeitos sem prestar muita atenção ao tamanho do efeito e seu "significado prático" (que, segundo Z&MS, pode ser minúsculo). Essa é claramente uma prática ruim. No entanto, como o @MatteoS explicou abaixo, os tamanhos de efeito (estimativas de regressão) sempre são relatados, portanto, meu argumento permanece.)

  2. Quase nenhuma hipótese nula é verdadeira no mundo real, portanto, executar um teste de significância sobre elas é absurdo e bizarro.

    Essa preocupação também é muitas vezes manifestada, mas aqui novamente eu não posso realmente me conectar a ela. É importante perceber que os pesquisadores não aumentam seu ad infinitum . No ramo da neurociência com o qual estou familiarizado, as pessoas farão experimentos com ou talvez , digamos, com ratos. Se não houver efeito a ser observado, a conclusão é que o efeito não é grande o suficiente para ser interessante. Ninguém que eu conheça iria sobre a criação, formação, gravação e sacrificar ratos para mostrar que não é algum efeito estatisticamente significativa, mas pequena. E, embora possa ser verdade que quase nenhum efeito real seja exatamente zero, én n=20n=50n=5000 certamente é verdade que muitos efeitos reais são pequenos o suficiente para serem detectados com tamanhos razoáveis ​​de amostra que os pesquisadores razoáveis ​​estão realmente usando, exercitando seu bom senso.

    (Existe uma preocupação válida de que os tamanhos das amostras geralmente não são grandes o suficiente e que muitos estudos são insuficientes. Portanto, talvez os pesquisadores de muitas áreas devam visar, digamos, vez de Ainda assim, qualquer que seja o tamanho da amostra , limita o tamanho do efeito que o estudo tem poder para detectar.)n=100n=20

    Além disso, não acho que concordo que quase nenhuma hipótese nula seja verdadeira, pelo menos não nos estudos randomizados experimentais (em oposição aos observacionais). Duas razões:

    • Muitas vezes há uma direcionalidade na previsão que está sendo testada; O pesquisador pretende demonstrar que algum efeito é positivo . Por convenção, isso geralmente é feito com um teste bilateral, assumindo um ponto nulo mas, na verdade, esse é um teste unilateral que tenta rejeitar . (A resposta de @ CliffAB, +1, faz uma observação relacionada.) E isso certamente pode ser verdade.δ>0H0:δ=0H0:δ<0

    • Mesmo falando sobre o ponto "nulo" nulo , não vejo por que eles nunca são verdadeiros. Algumas coisas simplesmente não estão causalmente relacionadas a outras. Veja os estudos de psicologia que não estão se reproduzindo nos últimos anos: pessoas sentindo o futuro; as mulheres se vestem de vermelho ao ovular; imprimindo com palavras relacionadas à velhice que afetam a velocidade da caminhada; etc. Pode muito bem ser que não haja links causais aqui e, portanto, os verdadeiros efeitos são exatamente zero.H0:δ=0

Ele mesmo, Norm Matloff sugere usar intervalos de confiança em vez de valores- porque eles mostram o tamanho do efeito. Intervalos de confiança são bons, mas observe uma desvantagem de um intervalo de confiança em comparação com o valor : o intervalo de confiança é relatado para um valor de cobertura específico, por exemplo, . Ver um intervalo de confiança de não me diz quão amplo seria um intervalo de confiança de . Mas um único valor pode ser comparado a qualquer e diferentes leitores podem ter diferentes alfas em mente.pp95%95%99%pα

Em outras palavras, acho que para alguém que gosta de usar intervalos de confiança, um valor- é uma estatística adicional útil e significativa a ser relatada.p


Gostaria de fazer uma longa citação sobre a utilidade prática dos valores- do meu blogueiro favorito Scott Alexander; ele não é estatístico (ele é psiquiatra), mas tem muita experiência com a leitura de literatura médica / psicológica e com o exame minucioso das estatísticas nela contidas. A citação é de sua postagem no blog sobre o estudo de chocolate falso, que eu recomendo. Ênfase minha.p

[...] Mas suponha que não possamos fazer valores- . Tudo o que faço é dizer "Sim, houve um estudo com quinze pessoas que descobriram que o chocolate ajudou na resistência à insulina" e você riu na minha cara. O tamanho do efeito deve ajudar com isso. Mas suponha que eu lhe diga: "Houve um estudo com quinze pessoas que descobriu que o chocolate ajudou na resistência à insulina. O tamanho do efeito foi ". Não tenho nenhuma intuição, seja consistente ou não com o ruído aleatório. Você? Ok, então eles dizem que devemos reportar intervalos de confiança. O tamanho do efeito foi , com intervalo de confiança de dep0.60.695%[0.2,1.0]. OK. Então eu verifico o limite inferior do intervalo de confiança, vejo que é diferente de zero. Mas agora não estou transcendendo o valor- . Estou apenas usando o valor p fazendo um tipo de cálculo kludgy dele mesmo - “ intervalo de confiança de não inclui zero” é o mesmo que “ valor de menor que ”.p95%p0.05

(Imagine que, embora eu saiba que o intervalo de confiança de não inclua zero, comecei a me perguntar se o intervalo de confiança de inclui. Se ao menos houvesse alguma estatística que me desse essa informação!)95%99%

Mas não se livrar dos valores- impediria o " hacking"? Talvez, mas apenas daria lugar ao "d-hacking". Você não acha que poderia testar vinte parâmetros metabólicos diferentes e relatar apenas aquele com o maior tamanho de efeito? A única diferença seria que o p-hacking é completamente transparente - se você fizer vinte testes e reportar um de , eu sei que você é um idiota -, mas o d-hacking seria inescrutável. Se você fizer vinte testes e relatar que um deles obteve , isso é impressionante? [...]ppp0.05d=0.6

Mas a mudança de valores- para tamanhos de efeito não impedirá as pessoas de fazerem grandes coisas sobre pequenos efeitos que são estatisticamente significativos? Sim, mas às vezes queremos fazer uma grande coisa sobre pequenos efeitos que são estatisticamente significativos! Suponha que a Coca-Cola esteja testando um novo aditivo de produto e encontre em grandes estudos epidemiológicos que causa uma morte extra por cem mil pessoas por ano. Esse é um tamanho de efeito de aproximadamente zero, mas ainda pode ser estatisticamente significativo. E como cerca de um bilhão de pessoas em todo o mundo bebem coca-cola a cada ano, são dez mil mortes. Se a Coca-Cola dissesse “Não, o tamanho do efeito é pequeno demais, não vale a pena pensar”, eles matariam quase dois milhões de Hitler de pessoas.p


Para uma discussão mais aprofundada de várias alternativas aos valores de (incluindo os bayesianos), veja minha resposta no ASA discute as limitações dos valores de - quais são as alternativas?pp

ameba diz Restabelecer Monica
fonte
11
Sua resposta ao segundo argumento erra o ponto, na minha opinião. Ninguém está sugerindo que pesquisadores reais aumentem seu tamanho de amostra ad infinitum. O ponto (a meu ver) é que qualquer hipótese nula da forma "efeito = 0" que um pesquisador estaria interessado em testar será falsa, e há pouco valor em realizar um teste de hipótese se a hipótese nula já estiver conhecido por ser falso. Obviamente, isso pressupõe que o que realmente interessa são os parâmetros relevantes da população, e não as características da amostra.
mark999
11
Mas admito que "qualquer hipótese nula ... será falsa" é apenas uma suposição.
mark999
11
Devo admitir que meu raciocínio aqui foi bastante informal e nunca tentei formalizá-lo. Talvez para fazer esse argumento funcionar, não devo dizer que exista um limite claro entre tamanhos de efeito interessantes e desinteressantes. Pelo contrário, é um continuum com interesse aumentando cada vez mais longe de zero, e o tamanho "razoável" da amostra deve dar pouca potência aos tamanhos de efeito muito desinteressantes e grande potência aos muito interessantes, mas não há um limite. Gostaria de saber se é possível formalizá-lo com precisão ao longo das linhas de Neyman-Pearson.
Ameba diz Reinstate Monica
6
Talvez você "nunca tenha visto um estudo que reportaria um valor- sem relatar [algum equivalente ao] tamanho do efeito", mas Ziliak e McCloskey encontraram cerca de 300 artigos publicados em apenas um periódico, The American Economic Review, durante apenas duas décadas . Esses papéis representavam mais de 70% de todos os papéis para os quais examinavam. p
Robin Ekman
3
@amoeba: a fonte da alegação de 70% pode ser a frase ambígua no resumo de 2006: “dos 182 artigos completos publicados na década de 1980 nos [AER] 70% não distinguiram a significância econômica da estatística”. O que eles querem dizer com isso - como explicado nos dois artigos - é que frequentemente apenas o último é comentado e que a magnitude do coeficiente de regressão em relação à variável dependente (“significado econômico” em seu jargão) não é tão extensivamente analisada. . Mas é sempre relatado. Eu sugiro que você editar a sua atualização na resposta para refletir isso :-)
Matteos
29

Eu me ofendo com as duas idéias a seguir:

  1. Com amostras grandes, os testes de significância surgem em desvios minúsculos e sem importância da hipótese nula.

  2. Quase nenhuma hipótese nula é verdadeira no mundo real, portanto, executar um teste de significância sobre elas é absurdo e bizarro.

É um argumento tão confuso sobre valores-p. O problema fundamental que motivou o desenvolvimento das estatísticas vem de ver uma tendência e querer saber se o que vemos é por acaso ou representativo de uma tendência sistemática.

Com isso em mente, é verdade que nós, como estatísticos, normalmente não acreditamos que uma hipótese nula seja verdadeira (ou seja, , em que é a diferença média em algumas medidas entre dois grupos). No entanto, com testes nos dois lados, não sabemos qual hipótese alternativa é verdadeira! Em um teste de dois lados, podemos estar dispostos a dizer que temos 100% de certeza de que antes de ver os dados. Mas não sabemos se ou . Portanto, se executarmos nosso experimento e concluirmos que , rejeitamos (como diria Matloff; conclusão inútil), mas, mais importante, também rejeitamosHo:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (digo; conclusão útil). Como @amoeba apontou, isso também se aplica a testes unilaterais com potencial para serem bilaterais, como testar se um medicamento tem um efeito positivo.

É verdade que isso não diz a magnitude do efeito. Mas indica a direção do efeito. Então não vamos colocar a carroça diante do cavalo; Antes de começar a tirar conclusões sobre a magnitude do efeito, quero ter certeza de que tenho a direção correta do efeito!

Da mesma forma, o argumento de que "os valores-p atacam efeitos minúsculos e sem importância" parece-me bastante errado. Se você pensa em um valor-p como uma medida de quanto os dados suportam a direção da sua conclusão, é claro que deseja que ele capte pequenos efeitos quando o tamanho da amostra for grande o suficiente. Dizer que isso significa que eles não são úteis é muito estranho para mim: esses campos de pesquisa que sofreram valores-p são os mesmos que têm tantos dados que não precisam avaliar a confiabilidade de suas estimativas? Da mesma forma, se o seu problema for realmente o de que os valores p " efeito", você pode simplesmente testar as hipóteses eH 2 : µ d < - 1H1:μd>1H2:μd<1(supondo que você acredite que 1 seja o tamanho mínimo de efeito importante). Isso é feito frequentemente em ensaios clínicos.

Para ilustrar isso, suponha que apenas analisamos os intervalos de confiança e descartamos os valores de p. Qual é a primeira coisa que você verifica no intervalo de confiança? Se o efeito foi estritamente positivo (ou negativo) antes de levar os resultados muito a sério. Como tal, mesmo sem valores-p, estaríamos informalmente realizando testes de hipóteses.

Finalmente, no que diz respeito à solicitação do OP / Matloff, "Dê um argumento convincente de que os valores-p são significativamente melhores", acho que a pergunta é um pouco estranha. Digo isso porque, dependendo da sua visão, ela se responde automaticamente ("dê-me um exemplo concreto em que testar uma hipótese é melhor do que não testá-la"). No entanto, um caso especial que eu acho quase inegável é o dos dados do RNAseq. Nesse caso, estamos normalmente analisando o nível de expressão do RNA em dois grupos diferentes (isto é, doentes, controles) e tentando encontrar genes que são expressos diferencialmente nos dois grupos. Nesse caso, o tamanho do efeito em si não é realmente significativo. Isso ocorre porque os níveis de expressão de genes diferentes variam tanto que, para alguns genes, ter uma expressão 2x mais alta não significa nada, enquanto em outros genes fortemente regulados, a expressão 1,2x mais alta é fatal. Portanto, a magnitude real do tamanho do efeito é realmente um pouco desinteressante ao comparar os grupos pela primeira vez. Mas vocêrealmente, realmente quero saber se a expressão do gene muda entre os grupos e a direção da mudança! Além disso, é muito mais difícil resolver os problemas de várias comparações (para as quais você pode estar fazendo 20.000 delas em uma única execução) com intervalos de confiança do que com valores-p.

Cliff AB
fonte
2
Não concordo que conhecer a direção do efeito seja, por si só, útil. Se eu cuspir no chão, eu sei que isso vai melhorar ou inibir o crescimento da planta (ou seja, a hipótese nula de nenhum efeito é false). Como é útil conhecer a direção desse efeito sem qualquer informação sobre sua magnitude útil? No entanto, essa é a única coisa que o valor- p do seu teste de dois lados / dois testes de um lado (mais ou menos) diz a você! (Aliás, acho que o 'cuspir no chão' exemplo foi emprestado de algum papel na p -Valores que li anos atrás, mas não me lembro qual.)
Karl Ove Hufthammer
3
@KarlOveHufthammer: Carroça antes do cavalo. Não devo parar só porque sei a direção do efeito. Mas devo me preocupar em ter a direção correta antes de começar a me preocupar com a magnitude. Você acha que a comunidade científica seria melhor adotando tudo com grandes efeitos estimados sem verificar os valores-p?
Cliff AB
3
Além disso, essa ideia de que "valores-p não fornecem informações úteis" é apenas um uso mal feito do teste de hipóteses. Você pode testar facilmente as hipóteses de e se você acha que um tamanho de efeito deve ser de magnitude superior a 1 para ter qualquer significado. (editado a resposta para refletir isso, como eu acredito que é um ponto importante Obrigado por trazê-lo.)H a : µ d < - 1Ha:μd>1Ha:μd<1
Cliff AB
2
Você fez vários pontos muito bons nas edições. Eu realmente gosto da sua resposta agora!
Ameba diz Reinstate Monica
3
Enquanto trabalhava na minha resposta para stats.stackexchange.com/questions/200500 , deparei- me com esta recente pré-impressão de Wagenmakers et al, na qual eles essencialmente argumentam o seu ponto sobre a direcionalidade: "valores P unilaterais podem receber uma interpretação bayesiana como um teste aproximado de direção, ou seja, um teste para determinar se um efeito latente é negativo ou positivo ". É interessante porque Wagenmakers é um bayesiano obstinado, ele escreveu muito contra os valores-p. Ainda assim, vejo algum acordo conceitual aqui.
Ameba diz Reinstate Monica
6

Perdoe meu sarcasmo, mas um bom exemplo óbvio da utilidade dos valores-p está em ser publicado. Eu pedi a um pesquisador que me desse um valor p ... ele havia introduzido um transgene em uma única planta para melhorar o crescimento. A partir dessa planta, ele produziu vários clones e escolheu o maior clone, um exemplo em que toda a população é enumerada. Sua pergunta, o revisor deseja ver um valor-p de que esse clone é o maior. Mencionei que não há necessidade de estatísticas neste caso, pois ele tinha toda a população em mãos, mas sem sucesso.

Mais seriamente, na minha humilde opinião, do ponto de vista acadêmico, acho essas discussões interessantes e estimulantes, assim como os debates freqüentistas x bayesianos de alguns anos atrás. Traz as diferentes perspectivas das melhores mentes nesse campo e ilumina as muitas suposições / armadilhas associadas à metodologia que geralmente não são prontamente acessíveis.

Na prática, acho que, em vez de discutir sobre a melhor abordagem e substituir um critério defeituoso por outro, como já foi sugerido em outro lugar, para mim é mais uma revelação de um problema sistêmico subjacente e o foco deve estar na tentativa de encontrar o melhor soluções. Por exemplo, pode-se apresentar situações em que os valores de p e o IC se complementam e as circunstâncias em que um é mais confiável que o outro. No grande esquema das coisas, entendo que todas as ferramentas inferenciais têm suas próprias deficiências que precisam ser entendidas em qualquer aplicação, a fim de não impedir o progresso em direção ao objetivo final ... a compreensão mais profunda do sistema de estudo.

ashokragavendran
fonte
6

Darei a você o exemplo de como os valores-p devem ser usados ​​e relatados. É um relatório muito recente sobre a busca de uma partícula misteriosa no Large Hadron Collider (LHC) no CERN .

Alguns meses atrás, houve muita conversa animada nos círculos da física de alta energia sobre a possibilidade de uma grande partícula ter sido detectada no LHC. Lembre-se de que isso ocorreu após a descoberta do bóson de Higgs . Aqui está o trecho do artigo "Pesquise ressonâncias decaindo em pares de fótons em colisões de 3,2 fb-1 de pp em √s = 13 TeV com o detector ATLAS" de The ATLAS Collaboration 15 de dezembro de 2015 e meus comentários a seguir:

insira a descrição da imagem aqui

O que eles estão dizendo aqui é que a contagem de eventos excede o que o Modelo Padrão prevê. A figura abaixo do artigo mostra os valores p de eventos em excesso em função da massa de uma partícula. Você vê como o valor p mergulha em torno de 750 GeV. Então, eles estão dizendo que existe a possibilidade de uma nova partícula ser detectada com uma massa igual a 750 Giga eV . Os valores de p na figura são calculados como "locais". Os valores p globais são muito mais altos. Isso não é importante para a nossa conversa.

O importante é que os valores-p ainda não sejam "baixos o suficiente" para os físicos declararem uma descoberta, mas "baixos o suficiente" para ficarem animados. Então, eles planejam continuar contando e esperando que esses valores p diminuam ainda mais.

insira a descrição da imagem aqui

Aproxime alguns meses para agosto de 2016, Chicago, uma conferência sobre HEP . Foi apresentado um novo relatório "Pesquisa pela produção ressonante de pares de fótons de alta massa usando 12,9 fb-1 de colisões próton-próton a √ s = 13 TeV e interpretação combinada de pesquisas a 8 e 13 TeV" por The CMS Collaboration neste momento. Aqui estão os trechos dos meus comentários novamente:

insira a descrição da imagem aqui

Então, os caras continuaram coletando eventos e agora esse pontinho de excesso de eventos em 750 GeV se foi. A figura abaixo do documento mostra os valores-p e você pode ver como o valor-p aumentou em comparação com o primeiro relatório. Então, eles concluem tristemente que nenhuma partícula é detectada a 750 GeV.

insira a descrição da imagem aqui

Eu acho que é assim que os valores p devem ser usados. Eles totalmente fazem sentido e claramente funcionam. Penso que a razão é que as abordagens freqüentistas são inerentemente naturais na física. Não há nada subjetivo na dispersão de partículas. Você coleta uma amostra grande o suficiente e recebe um sinal claro, se estiver lá.

Se você realmente entender como exatamente os valores p são calculados aqui, leia este artigo : "Fórmulas assintóticas para testes baseados em probabilidade da nova física", de Cowan et al.

Aksakal
fonte
2
Todo mundo esperava que o pico de 750 GeV fosse real e agora esteja triste. Mas eu estava realmente esperando que isso acabasse sendo uma flutuação (e poderia apostar que sim) e agora estou aliviado. Eu acho legal que o modelo padrão funcione tão bem. Não entendo bem o desejo ardente de ir além do modelo padrão (como se tudo o mais na física estivesse resolvido). Enfim, +1, bom exemplo.
Ameba diz Reinstate Monica
2

As outras explicações estão bem, eu só queria tentar dar uma resposta breve e direta à pergunta que surgiu na minha cabeça.

Verificando o desequilíbrio covariado em experiências aleatórias

Sua segunda afirmação (sobre hipóteses nulas irrealistas) não é verdadeira quando estamos verificando o equilíbrio covariável em experimentos randomizados, onde sabemos que a randomização foi feita corretamente. Nesse caso, sabemos que a hipótese nula é verdadeira. Se obtivermos uma diferença significativa entre o grupo de tratamento e controle em alguma covariável - depois de controlar várias comparações, é claro - isso nos diz que tivemos uma "má sorte" na randomização e talvez não devamos confiar na estimativa causal, pois Muito de. Isso ocorre porque podemos pensar que nossas estimativas do efeito do tratamento a partir dessa randomização específica de "empate" estão mais distantes dos efeitos reais do tratamento do que as estimativas obtidas de um "empate".

Eu acho que esse é um uso perfeito dos valores-p. Ele usa a definição de valor-p: a probabilidade de obter um valor igual ou mais extremo, dada a hipótese nula. Se o resultado for altamente improvável, de fato tivemos um "empate ruim".

Tabelas / estatísticas de equilíbrio também são comuns ao usar dados observacionais para tentar fazer inferências causais (por exemplo, correspondência, experimentos naturais). Embora, nesses casos, as tabelas de balanço estejam longe de serem suficientes para justificar um rótulo "causal" para as estimativas.


fonte
Discordo que esse é um uso perfeito (ou até bom) dos valores-p. Como você define um "empate ruim"?
mark999
2
@mark, Ok. Acho que posso responder sua última pergunta enquanto Matt estiver ausente: é claro que está na amostra. Imagine um experimento aleatório com 50 pessoas. Imagine que aconteceu de fato que todas as 25 pessoas do grupo A eram homens e todas as 25 pessoas do grupo B eram mulheres. É bastante óbvio que isso pode causar sérias dúvidas em quaisquer conclusões do estudo; esse é um exemplo de "mau sorteio". Matt sugeriu fazer um teste para diferenças de gênero (covariável) entre A e B. Não vejo como a resposta de Matt pode ser interpretada de maneira diferente. Sem dúvida, não há populações aqui.
Ameba diz Reinstate Monica
11
@ mark999 Mas um teste de diferença entre 25/12 e 13/25 obviamente produzirá um valor p não significativo, portanto não tenho certeza de qual é o seu ponto aqui. Matt sugeriu fazer um teste e considerar um baixo valor de p como uma bandeira vermelha. Nenhuma bandeira vermelha no seu exemplo. Acho que vou parar por aqui e deixar Matt continuar o diálogo, se ele quiser.
Ameba diz Reinstate Monica
4
Não. Consulte 'falácia do teste de balanceamento': gking.harvard.edu/files/matchse.pdf Você descreve um caso em que a própria estatística de teste pode ser boa (usada como uma medida de distância para minimizar), mas um valor-p não sentido.
conjugateprior
2
Para um exame mais recente disso em psico e neurolinguística, há uma nova pré-impressão do arXiv . Quando você está deliberando manipulando o equilíbrio, etc., você não faz amostragem aleatória e, mesmo que estivesse, os testes respondem a uma pergunta inferencial diferente sobre equilíbrio na população que não é equilíbrio na amostra.
Livius
2

O controle das taxas de erro é semelhante ao controle de qualidade na produção. Um robô em uma linha de produção tem uma regra para decidir que uma peça está com defeito, o que garante não exceder uma taxa especificada de peças defeituosas que passam despercebidas. Da mesma forma, uma agência que toma decisões para aprovação de medicamentos com base em valores P "honestos" tem como manter a taxa de falsas rejeições em um nível controlado, por definição, através da construção freqüente de testes a longo prazo. Aqui, "honesto" significa ausência de preconceitos não controlados, seleções ocultas etc.

No entanto, nem o robô nem a agência têm interesse pessoal em qualquer medicamento ou peça em particular que atravessa o transportador de montagem. Na ciência, por outro lado, nós, como investigadores individuais, nos preocupamos mais com a hipótese específica que estudamos, e não com a proporção de alegações espúrias em nosso diário favorito ao qual nos submetemos. Nem a magnitude do valor P nem os limites de um intervalo de confiança (IC) se referem diretamente à nossa pergunta sobre a credibilidade do que relatamos. Quando construímos os limites do IC, deveríamos dizer que o único significado dos dois números é que, se outros cientistas fizerem o mesmo tipo de computação do IC em seus estudos, a cobertura de 95% ou qualquer outra cobertura será mantida em vários estudos como um todo. .

Nessa perspectiva, acho irônico que os valores-P estejam sendo "banidos" pelos periódicos, considerando que, no meio da crise de replicabilidade, eles têm mais valor para os editores de revistas do que para os pesquisadores que enviam seus trabalhos, como uma maneira prática de manter os valores-P. taxa de descobertas espúrias relatadas por um diário na baía, a longo prazo. Os valores P são bons para filtrar ou, como IJ Good escreveu, são bons para proteger a extremidade traseira do estatístico, mas não tanto a parte traseira do cliente.

PS: Sou um grande fã da idéia de Benjamini e Hochberg de levar a expectativa incondicional entre estudos com vários testes. Sob o "nulo" global, o FDR "freqüentador" ainda é controlado - estudos com uma ou mais rejeições aparecem em um periódico a uma taxa controlada, embora, nesse caso, qualquer estudo em que algumas rejeições tenham sido efetivamente feitas tenha a proporção de falsas rejeições que é igual a um.

DZ
fonte
1

Concordo com Matt que os valores de p são úteis quando a hipótese nula é verdadeira.

O exemplo mais simples que consigo pensar é testar um gerador de números aleatórios. Se o gerador estiver funcionando corretamente, você poderá usar qualquer tamanho de amostra apropriado das realizações e, ao testar o ajuste em muitas amostras, os valores de p devem ter uma distribuição uniforme. Se o fizerem, é uma boa evidência para uma implementação correta. Caso contrário, você sabe que cometeu um erro em algum lugar.

Outras situações semelhantes ocorrem quando você sabe que uma variável estatística ou aleatória deve ter uma certa distribuição (novamente, o contexto mais óbvio é a simulação). Se os valores-p forem uniformes, você encontrou suporte para uma implementação válida. Caso contrário, você sabe que tem um problema em algum lugar do seu código.

Soakley
fonte
1

Eu posso pensar no exemplo em que os valores p são úteis, na Física Experimental de Alta Energia. Veja a Fig. 1 Este gráfico é retirado deste artigo: Observação de uma nova partícula na busca do bóson de Modelo Padrão Higgs com o detector ATLAS no LHC

5σH125

insira a descrição da imagem aqui

Nicolas Gutierrez
fonte
11
Você precisa fornecer mais informações sobre o gráfico, com os antecedentes e como ele aborda a pergunta original. Isso não é informação suficiente.
Greenparker
@ Greenparker, tentou adicionar um pouco de fundo ao enredo.
Nicolas Gutierrez
±1σ