Tamanho do efeito como hipótese para teste de significância

37

Hoje, no Cross Validated Journal Club (por que você não estava lá?), A @mbq perguntou:

Você acha que nós (cientistas modernos de dados) sabemos o que significa significado? E como isso se relaciona com a nossa confiança em nossos resultados?

@Michelle respondeu como alguns (inclusive eu) costumam fazer:

Estou achando o conceito de significado (com base em valores-p) cada vez menos útil à medida que continuo em minha carreira. Por exemplo, posso usar conjuntos de dados extremamente grandes para que tudo seja estatisticamente significativo ( $p<.01$ )

Esta é provavelmente uma pergunta estúpida, mas não é o problema que a hipótese está sendo testada? Se você testar a hipótese nula "A é igual a B", saberá que a resposta é "Não". Conjuntos de dados maiores apenas o aproximarão dessa conclusão inevitavelmente verdadeira. Creio que foi Deming quem uma vez deu um exemplo com a hipótese "o número de cabelos no lado direito de um cordeiro é igual ao número de cabelos no lado esquerdo". Bem, claro que não é.

Uma hipótese melhor seria "A não difere de B em mais que muito". Ou, no exemplo do cordeiro, "o número de pelos nas laterais de um cordeiro não difere em mais de X%".

Isso faz sentido?

hypothesis-testing p-value large-data Carlos Accioly
fonte

1) O teste da equivalência média (assumindo que é isso que você deseja) pode, em alguns casos, ser simplificado para um teste de significância da diferença média. Com um erro padrão para essa estimativa de diferença, você pode fazer todos os tipos de testes dos tipos "não diferem de B por mais ...". 2) Quanto ao tamanho da amostra - sim, para ss grandes, a importância do significado diminui, mas ainda é crucial para amostras menores, nas quais você não pode apenas gerar valores adicionais.

Ondrej

11

Re "Claro que não." No palpite, um cordeiro tem a ordem de

pêlos de cada lado. Se houver um número par desses pêlos e eles forem distribuídos aleatoriamente com chances iguais em ambos os lados e os lados estiverem claramente delineados, a chance de ambos os números seremexatamenteiguais é de 0,178%. Em um grande rebanho de várias centenas, você deveesperarpara ver como um cordeiro perfeitamente equilibrado nascido pelo menos uma vez a cada década (assumindo um número par de pêlos ocorre cerca de 50% do tempo). Ou: quasetodovelho criador de ovelhas teve esse cordeiro!

10^{5}

$10^5$

whuber

11

@whuber É determinado pelo objetivo da análise. Uma analogia melhor seria qual é o tamanho mínimo de efeito que justificaria mais investimentos em um medicamento após um julgamento. Apenas a existência de um efeito estatisticamente significativo não é suficiente, pois o desenvolvimento de um medicamento é caro e pode haver efeitos colaterais que precisam ser considerados. Não é uma questão estatística, mas prática.

Dikran marsupiais

2

@whuber Eu suspeito que na maioria das aplicações em que não há informações práticas para decidir o tamanho mínimo de interesse do efeito, o teste de hipótese padrão é bom, por exemplo, teste de normalidade. Como bayesiano, eu concordaria com a visão como um problema de otimização, e não como um problema de teste de hipóteses. Parte do problema com os testes de hipótese resulta da abordagem do livro de receitas estatísticas, onde os testes são realizados como uma tradição sem considerar adequadamente o objetivo do exercício ou o verdadeiro significado do resultado (todos IMHO, é claro).

Dikran marsupiais

11

@DikranMarsupial não é a chave para que os alunos recebam provas mecânicas, conforme identificado pelo gung abaixo, em vez da importância de um bom desenho de estudo? Uma ênfase maior no desenho do estudo ajudaria a resolver parte do problema - não necessariamente com grandes conjuntos de dados?

25412 Michelle

25

Quanto ao teste de significância (ou qualquer outra coisa que faça essencialmente a mesma coisa que o teste de significância), há muito tempo penso que a melhor abordagem na maioria das situações provavelmente é estimar um tamanho de efeito padronizado, com um intervalo de confiança de 95% sobre isso. tamanho do efeito. Não há nada realmente novo lá - matematicamente, você pode alternar entre eles - se o valor de p para um nulo 'nulo' for <0,05, então 0 ficará fora de um IC de 95% e vice-versa. A vantagem disso, na minha opinião, é psicológica; isto é, cria informações salientes que existem, mas que as pessoas não conseguem ver quando apenas os valores de p são relatados. Por exemplo, é fácil ver que um efeito é extremamente "significativo", mas ridiculamente pequeno; ou "não significativo", mas apenas porque as barras de erro são enormes, enquanto o efeito estimado é mais ou menos o esperado. Eles podem ser combinados com valores brutos e seus ICs.

Agora, em muitos campos, os valores brutos são intrinsecamente significativos, e reconheço que isso levanta a questão de se ainda vale a pena calcular medidas de tamanho de efeito, já que já temos valores como médias e inclinações. Um exemplo pode ser o crescimento atrofiado; sabemos o que significa que um homem branco de 20 anos é 6 +/- 2 polegadas mais baixo (ou seja, 15 +/- 5 cm) do que seria de outra forma, então por que mencionar ? Costumo pensar que ainda pode haver valor ao relatar os dois, e funções podem ser escritas para computá-las, de modo que é muito pouco trabalho extra, mas reconheço que as opiniões variam. De qualquer forma, argumento que as estimativas pontuais com intervalos de confiança substituem os valores-p como a primeira parte da minha resposta. $d=-1.6\pm.5$

Por outro lado, acho que uma pergunta maior é 'é a coisa que o teste de significância faz o que realmente queremos?' Penso que o verdadeiro problema é que, para a maioria das pessoas que analisa dados (ou seja, profissionais e não estatísticos), o teste de significância pode se tornar a totalidade da análise de dados. Parece-me que o mais importante é ter uma maneira fundamentada de pensar sobre o que está acontecendo com nossos dados, e o teste de significância de hipóteses nulas é, na melhor das hipóteses, uma parte muito pequena disso. Deixe-me dar um exemplo imaginário (reconheço que é uma caricatura, mas, infelizmente, temo que seja algo plausível):

Bob conduz um estudo, coletando dados sobre algo ou outro. Ele espera que os dados sejam normalmente distribuídos, agrupando-se firmemente em torno de algum valor, e pretende realizar um teste t de uma amostra para verificar se os dados são 'significativamente diferentes' de algum valor pré-especificado. Depois de coletar sua amostra, ele verifica se seus dados são normalmente distribuídos e descobre que não. Em vez disso, eles não têm um nódulo pronunciado no centro, mas são relativamente altos em um determinado intervalo e depois se arrastam com uma longa cauda esquerda. Bob se preocupa com o que deve fazer para garantir que seu teste seja válido. Ele acaba fazendo alguma coisa (por exemplo, uma transformação, um teste não paramétrico, etc.) e depois relata uma estatística de teste e um valor-p.

Espero que isso não pareça tão desagradável. Não pretendo zombar de ninguém, mas acho que algo assim acontece ocasionalmente. Caso esse cenário ocorra, todos podemos concordar que é uma análise de dados ruim. No entanto, o problema não é que a estatística do teste ou o valor p esteja errado; podemos afirmar que os dados foram tratados adequadamente nesse sentido. Eu argumentaria que o problema é que Bob está envolvido no que Cleveland chamou de "análise de dados rotineiros". Ele parece acreditar que o único ponto é obter o valor p certo e pensa muito pouco em seus dados fora de perseguir esse objetivo. Ele até poderia ter mudado para a minha sugestão acima e relatado um tamanho de efeito padronizado com um intervalo de confiança de 95%, e isso não teria mudado o que considero o maior problema (é isso que eu quis dizer com fazer "essencialmente a mesma coisa "por um meio diferente). Nesse caso específico, o fato de os dados não parecerem como ele esperava (ou seja, não eram normais) é uma informação real, é interessantee muito possivelmente importante, mas essas informações são basicamente jogadas fora. Bob não reconhece isso, por causa do foco nos testes de significância. Na minha opinião, esse é o verdadeiro problema dos testes de significância.

Permitam-me abordar algumas outras perspectivas que foram mencionadas e quero deixar bem claro que não estou criticando ninguém.

Muitas vezes é mencionado que muitas pessoas realmente não entendem os valores-p (por exemplo, pensando que são as probabilidades de que o nulo seja verdadeiro), etc. Algumas vezes é argumentado que, se apenas as pessoas usassem a abordagem bayesiana, esses problemas vá embora. Acredito que as pessoas possam abordar a análise de dados bayesiana de maneira igualmente incurável e mecânica. No entanto, acho que entender mal o significado dos valores-p seria menos prejudicial se ninguém pensasse que obter um valor-p era o objetivo.
A existência de 'big data' geralmente não está relacionada a esse problema. O big data apenas torna óbvio que organizar a análise de dados em torno de 'significância' não é uma abordagem útil.
Não acredito que o problema esteja com a hipótese sendo testada. Se as pessoas quiserem apenas ver se o valor estimado está fora de um intervalo, e não se for igual a um valor pontual, muitos dos mesmos problemas podem surgir. (Mais uma vez, quero deixar claro que sei que você não é 'Bob' .)
Para constar, quero mencionar que minha própria sugestão do primeiro parágrafo não aborda a questão, como tentei salientar.

Para mim, esta é a questão central: o que realmente queremos é uma maneira de pensar sobre o que aconteceu . O que isso significa em qualquer situação não é cortado e seco. Como transmitir isso aos alunos de uma aula de métodos não é claro nem fácil. O teste de significância tem muita inércia e tradição por trás disso. Em uma aula de estatística, fica claro o que precisa ser ensinado e como. Para estudantes e profissionais, torna-se possível desenvolver um esquema conceitual para entender o material e um checklist / fluxograma (já vi alguns!) Para conduzir análises. O teste de significância pode evoluir naturalmente para a análise de dados rotineiros, sem que ninguém seja burro, preguiçoso ou ruim. Esse é o problema.

- Reinstate Monica
fonte

Eu gosto de intervalos de confiança :) Uma pergunta: você quis dizer que o cálculo post hoc do tamanho do efeito está correto?

25412 Michelle

{\bar{x}}_{1} = 10

$\bar{x}_1=10$

{\bar{x}}_{2} = 14

$\bar{x}_2=14$

S D = 6

$SD=6$

d = .67

$d=.67$

Sim, acho que estamos concordando aqui.

2525 Michelle

+1 A história de Bob me lembra o seguinte: pss.sagepub.com/content/early/2011/10/17/0956797611417632

Carlos Accioly

+1 Eu prefiro intervalos credíveis. Em relação ao ponto 1, eu argumentaria que as alternativas bayesianas são menos propensas a resultar em análise de dados, pois a definição de probabilidade não é tão contra-intuitiva, o que facilita muito a formulação da pergunta que você realmente deseja fazer de maneira estatística . O verdadeiro problema reside no fato de que a realização do teste requer intergrals, que são difíceis demais para que esses métodos sejam amplamente adotados. Esperamos que o software se desenvolva ao ponto em que o usuário possa se concentrar na formulação da pergunta e deixar o resto para o computador.

Dikran Marsupial

18

Por que insistimos em qualquer forma de teste de hipótese em estatística?

No maravilhoso livro Estatística como argumento de princípios, Robert Abelson argumenta que a análise estatística faz parte de um argumento de princípios sobre o assunto em questão. Ele diz que, em vez de ser avaliado como hipóteses a serem rejeitadas ou não rejeitadas (ou mesmo aceitas!?!), Devemos avaliá-las com base no que ele chama de critério MAGIC:

Magnitude - qual o tamanho? Articulação - É cheio de exceções? Está claro? Generalidade - Como geralmente se aplica? Interessante - Nos preocupamos com o resultado? Credibilidade - Podemos acreditar?

Minha resenha do livro no meu blog

Peter Flom - Restabelece Monica
fonte

4

O problema é fomentado por alguns professores. Meu doutorado é em psicometria, que está no departamento de psicologia. Ouvi professores de outras partes do departamento dizerem coisas como "apenas relate o valor-p, é isso que importa". Meu trabalho é de consultoria, principalmente com estudantes de graduação e pesquisadores nas áreas social, comportamental, educacional e médica. A quantidade de desinformação que é dada pelos comitês de doutorado é surpreendente.

Peter Flom - Restabelece Monica

11

+1 em "Por que ...", é uma grande parte do que eu estava tentando obter na minha resposta.

gung - Restabelece Monica

Outra parte do que eu estava tentando entender na minha resposta é que acho que isso acontece naturalmente. Btw, não é justo conseguir duas votações ;-), você pode combiná-las.

gung - Restabelece Monica

13

$H_0\colon \{|\mu_1-\mu_2|>\epsilon\}$ $\epsilon$ $\mu_1$ $\mu_2$ $\epsilon$ $\mu_1$ $\mu_2$ $\Pr(|X_1-X_2|>\epsilon)$

Stéphane Laurent
fonte

(+1) E bem-vindo à 1000 reputação. Felicidades.

cardeal

6

Os testes de hipóteses tradicionais informam se existe evidência estatisticamente significativa para a existência de um efeito, enquanto o que geralmente queremos saber é a existência de evidência de um efeito praticamente significativo.

Certamente é possível formar "testes de hipóteses" bayesianos com um tamanho mínimo de efeito (IIRC, há um exemplo disso no livro de David MacKay sobre "Teoria da informação, inferência e algoritmos de aprendizagem", procurarei quando tiver um momento .

O teste de normalidade é outro bom exemplo: geralmente sabemos que os dados não são realmente distribuídos normalmente; estamos apenas testando para verificar se há evidências de que essa não é uma aproximação razoável. Ou, testando o viés de uma moeda, sabemos que é improvável que seja completamente tendencioso, pois é assimétrico.

Dikran Marsupial
fonte

6

Muito disso se resume a qual pergunta você está realmente fazendo, como você projeta seu estudo e até o que você quer dizer com igual.

Corri através de uma pequena inserção interessante no British Medical Journal, uma vez que falava sobre o que as pessoas interpretavam como certas fases. Acontece que "sempre" pode significar que algo acontece tão baixo quanto 91% das vezes (BMJ VOLUME 333 26 DE AGOSTO DE 2006 página 445). Então, talvez igual e equivalente (ou dentro de X% para algum valor de X) possa significar a mesma coisa. E vamos pedir ao computador uma igualdade simples, usando R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$\$$ $\$$

$H_a: \mu > \mu_0$ $H_0: \mu=\mu_0$ $H_0: \mu \le \mu_0$ $\mu$ $\mu_0$ $\mu_0$ $\mu \ne \mu_0$ $\mu_0$ $\mu$ $\mu$ $\mu_0$ $\mu$ $\mu_0$ $\mu_0$ $\mu$

Muito disso se resume a fazer a pergunta certa e projetar o estudo certo para essa pergunta. Se você acabar com dados suficientes para mostrar que uma diferença praticamente sem sentido é estatisticamente significativa, você desperdiçou recursos recebendo muitos dados. Teria sido melhor decidir o que seria uma diferença significativa e projetou o estudo para fornecer a você poder suficiente para detectar essa diferença, mas não menor.

E se realmente queremos dividir os cabelos, como definimos quais partes do cordeiro estão à direita e quais estão à esquerda? Se o definirmos por uma linha que, por definição, tenha um número igual de cabelos em cada lado, a resposta à pergunta acima será "Claro que sim".

Greg Snow
fonte

Suspeito que a resposta que você recebe de R seja simplesmente o resultado de algum problema aritmético de ponto flutuante, não uma decisão consciente de desconsiderar diferenças irrelevantes. Considere o exemplo clássico (.1 + .2) == .3 Um "matemático puro" diria que eles são iguais, em qualquer nível de precisão, mas R retorna FALSE.

Gala

@ GaëlLaurans, meu argumento é que, devido ao arredondamento (consciente do ser humano ou do computador), os conceitos de exatamente igual e dentro de X% para um X suficientemente pequeno são praticamente os mesmos.

Greg Neve

5

Do ponto de vista organizacional, seja o governo com opções de política ou uma empresa que procura lançar um novo processo / produto, o uso de uma simples análise de custo-benefício também pode ajudar. Argumentei no passado que (ignorando razões políticas), dado o custo conhecido de uma nova iniciativa, qual é o ponto de equilíbrio para um número de pessoas que devem ser afetadas positivamente por essa iniciativa? Por exemplo, se a nova iniciativa é levar mais desempregados para o trabalho e os custos da iniciativa $100,000, ela atinge uma redução de pelo menos as transferências de desemprego $100,000? Caso contrário, o efeito da iniciativa não é praticamente significativo.

Para resultados de saúde, o valor de uma vida estatística assume importância. Isso ocorre porque os benefícios de saúde são acumulados ao longo da vida (e, portanto, os benefícios são ajustados para baixo em valor com base em uma taxa de desconto ). Então, em vez da significância estatística, obtém-se argumentos sobre como estimar o valor de uma vida estatística e qual taxa de desconto deve ser aplicada.

Michelle
fonte

Tamanho do efeito como hipótese para teste de significância

Respostas: