Hoje, no Cross Validated Journal Club (por que você não estava lá?), A @mbq perguntou:
Você acha que nós (cientistas modernos de dados) sabemos o que significa significado? E como isso se relaciona com a nossa confiança em nossos resultados?
@Michelle respondeu como alguns (inclusive eu) costumam fazer:
Estou achando o conceito de significado (com base em valores-p) cada vez menos útil à medida que continuo em minha carreira. Por exemplo, posso usar conjuntos de dados extremamente grandes para que tudo seja estatisticamente significativo ( )
Esta é provavelmente uma pergunta estúpida, mas não é o problema que a hipótese está sendo testada? Se você testar a hipótese nula "A é igual a B", saberá que a resposta é "Não". Conjuntos de dados maiores apenas o aproximarão dessa conclusão inevitavelmente verdadeira. Creio que foi Deming quem uma vez deu um exemplo com a hipótese "o número de cabelos no lado direito de um cordeiro é igual ao número de cabelos no lado esquerdo". Bem, claro que não é.
Uma hipótese melhor seria "A não difere de B em mais que muito". Ou, no exemplo do cordeiro, "o número de pelos nas laterais de um cordeiro não difere em mais de X%".
Isso faz sentido?
fonte
Respostas:
Quanto ao teste de significância (ou qualquer outra coisa que faça essencialmente a mesma coisa que o teste de significância), há muito tempo penso que a melhor abordagem na maioria das situações provavelmente é estimar um tamanho de efeito padronizado, com um intervalo de confiança de 95% sobre isso. tamanho do efeito. Não há nada realmente novo lá - matematicamente, você pode alternar entre eles - se o valor de p para um nulo 'nulo' for <0,05, então 0 ficará fora de um IC de 95% e vice-versa. A vantagem disso, na minha opinião, é psicológica; isto é, cria informações salientes que existem, mas que as pessoas não conseguem ver quando apenas os valores de p são relatados. Por exemplo, é fácil ver que um efeito é extremamente "significativo", mas ridiculamente pequeno; ou "não significativo", mas apenas porque as barras de erro são enormes, enquanto o efeito estimado é mais ou menos o esperado. Eles podem ser combinados com valores brutos e seus ICs.
Agora, em muitos campos, os valores brutos são intrinsecamente significativos, e reconheço que isso levanta a questão de se ainda vale a pena calcular medidas de tamanho de efeito, já que já temos valores como médias e inclinações. Um exemplo pode ser o crescimento atrofiado; sabemos o que significa que um homem branco de 20 anos é 6 +/- 2 polegadas mais baixo (ou seja, 15 +/- 5 cm) do que seria de outra forma, então por que mencionar ? Costumo pensar que ainda pode haver valor ao relatar os dois, e funções podem ser escritas para computá-las, de modo que é muito pouco trabalho extra, mas reconheço que as opiniões variam. De qualquer forma, argumento que as estimativas pontuais com intervalos de confiança substituem os valores-p como a primeira parte da minha resposta.d=−1.6±.5
Por outro lado, acho que uma pergunta maior é 'é a coisa que o teste de significância faz o que realmente queremos?' Penso que o verdadeiro problema é que, para a maioria das pessoas que analisa dados (ou seja, profissionais e não estatísticos), o teste de significância pode se tornar a totalidade da análise de dados. Parece-me que o mais importante é ter uma maneira fundamentada de pensar sobre o que está acontecendo com nossos dados, e o teste de significância de hipóteses nulas é, na melhor das hipóteses, uma parte muito pequena disso. Deixe-me dar um exemplo imaginário (reconheço que é uma caricatura, mas, infelizmente, temo que seja algo plausível):
Espero que isso não pareça tão desagradável. Não pretendo zombar de ninguém, mas acho que algo assim acontece ocasionalmente. Caso esse cenário ocorra, todos podemos concordar que é uma análise de dados ruim. No entanto, o problema não é que a estatística do teste ou o valor p esteja errado; podemos afirmar que os dados foram tratados adequadamente nesse sentido. Eu argumentaria que o problema é que Bob está envolvido no que Cleveland chamou de "análise de dados rotineiros". Ele parece acreditar que o único ponto é obter o valor p certo e pensa muito pouco em seus dados fora de perseguir esse objetivo. Ele até poderia ter mudado para a minha sugestão acima e relatado um tamanho de efeito padronizado com um intervalo de confiança de 95%, e isso não teria mudado o que considero o maior problema (é isso que eu quis dizer com fazer "essencialmente a mesma coisa "por um meio diferente). Nesse caso específico, o fato de os dados não parecerem como ele esperava (ou seja, não eram normais) é uma informação real, é interessantee muito possivelmente importante, mas essas informações são basicamente jogadas fora. Bob não reconhece isso, por causa do foco nos testes de significância. Na minha opinião, esse é o verdadeiro problema dos testes de significância.
Permitam-me abordar algumas outras perspectivas que foram mencionadas e quero deixar bem claro que não estou criticando ninguém.
Para mim, esta é a questão central: o que realmente queremos é uma maneira de pensar sobre o que aconteceu . O que isso significa em qualquer situação não é cortado e seco. Como transmitir isso aos alunos de uma aula de métodos não é claro nem fácil. O teste de significância tem muita inércia e tradição por trás disso. Em uma aula de estatística, fica claro o que precisa ser ensinado e como. Para estudantes e profissionais, torna-se possível desenvolver um esquema conceitual para entender o material e um checklist / fluxograma (já vi alguns!) Para conduzir análises. O teste de significância pode evoluir naturalmente para a análise de dados rotineiros, sem que ninguém seja burro, preguiçoso ou ruim. Esse é o problema.
fonte
Por que insistimos em qualquer forma de teste de hipótese em estatística?
No maravilhoso livro Estatística como argumento de princípios, Robert Abelson argumenta que a análise estatística faz parte de um argumento de princípios sobre o assunto em questão. Ele diz que, em vez de ser avaliado como hipóteses a serem rejeitadas ou não rejeitadas (ou mesmo aceitas!?!), Devemos avaliá-las com base no que ele chama de critério MAGIC:
Magnitude - qual o tamanho? Articulação - É cheio de exceções? Está claro? Generalidade - Como geralmente se aplica? Interessante - Nos preocupamos com o resultado? Credibilidade - Podemos acreditar?
Minha resenha do livro no meu blog
fonte
fonte
Os testes de hipóteses tradicionais informam se existe evidência estatisticamente significativa para a existência de um efeito, enquanto o que geralmente queremos saber é a existência de evidência de um efeito praticamente significativo.
Certamente é possível formar "testes de hipóteses" bayesianos com um tamanho mínimo de efeito (IIRC, há um exemplo disso no livro de David MacKay sobre "Teoria da informação, inferência e algoritmos de aprendizagem", procurarei quando tiver um momento .
O teste de normalidade é outro bom exemplo: geralmente sabemos que os dados não são realmente distribuídos normalmente; estamos apenas testando para verificar se há evidências de que essa não é uma aproximação razoável. Ou, testando o viés de uma moeda, sabemos que é improvável que seja completamente tendencioso, pois é assimétrico.
fonte
Muito disso se resume a qual pergunta você está realmente fazendo, como você projeta seu estudo e até o que você quer dizer com igual.
Corri através de uma pequena inserção interessante no British Medical Journal, uma vez que falava sobre o que as pessoas interpretavam como certas fases. Acontece que "sempre" pode significar que algo acontece tão baixo quanto 91% das vezes (BMJ VOLUME 333 26 DE AGOSTO DE 2006 página 445). Então, talvez igual e equivalente (ou dentro de X% para algum valor de X) possa significar a mesma coisa. E vamos pedir ao computador uma igualdade simples, usando R:
Muito disso se resume a fazer a pergunta certa e projetar o estudo certo para essa pergunta. Se você acabar com dados suficientes para mostrar que uma diferença praticamente sem sentido é estatisticamente significativa, você desperdiçou recursos recebendo muitos dados. Teria sido melhor decidir o que seria uma diferença significativa e projetou o estudo para fornecer a você poder suficiente para detectar essa diferença, mas não menor.
E se realmente queremos dividir os cabelos, como definimos quais partes do cordeiro estão à direita e quais estão à esquerda? Se o definirmos por uma linha que, por definição, tenha um número igual de cabelos em cada lado, a resposta à pergunta acima será "Claro que sim".
fonte
Do ponto de vista organizacional, seja o governo com opções de política ou uma empresa que procura lançar um novo processo / produto, o uso de uma simples análise de custo-benefício também pode ajudar. Argumentei no passado que (ignorando razões políticas), dado o custo conhecido de uma nova iniciativa, qual é o ponto de equilíbrio para um número de pessoas que devem ser afetadas positivamente por essa iniciativa? Por exemplo, se a nova iniciativa é levar mais desempregados para o trabalho e os custos da iniciativa
$100,000
, ela atinge uma redução de pelo menos as transferências de desemprego$100,000
? Caso contrário, o efeito da iniciativa não é praticamente significativo.Para resultados de saúde, o valor de uma vida estatística assume importância. Isso ocorre porque os benefícios de saúde são acumulados ao longo da vida (e, portanto, os benefícios são ajustados para baixo em valor com base em uma taxa de desconto ). Então, em vez da significância estatística, obtém-se argumentos sobre como estimar o valor de uma vida estatística e qual taxa de desconto deve ser aplicada.
fonte