Que sentido faz comparar valores-p entre si?

20

Eu tenho duas populações (homens e mulheres), cada uma contendo amostras. Para cada amostra, tenho duas propriedades A e B (média de notas no primeiro ano e pontuação no SAT). Eu usei um teste t separadamente para A e B: ambos encontraram diferenças significativas entre os dois grupos; A com e B com .p = 0,008 p = 0,0021000p=0.008p=0.002

É correto afirmar que a propriedade B é melhor discriminada (mais significativa) do que a propriedade A? Ou será que um teste t é apenas uma medida sim ou não (significativa ou não significativa)?

Atualização : de acordo com os comentários aqui e com o que li na wikipedia , acho que a resposta deve ser: largue o valor p sem sentido e relate o tamanho do seu efeito . Alguma ideia?

Dov
fonte
+ Por favor me perdoe que eu não sou um falante nativo Inglês :)
Dov
Não tem problema: se você acha que as edições (menores) que eu fiz mudaram sua pergunta de alguma maneira significativa, sinta-se à vontade para corrigi-las.
whuber
Qual foi o resultado que você mediu? (ou seja, o que difere entre os grupos definidos por A / não A ou B / não B?) É medido em todas as 1000 amostras ou faltam algumas?
guest
3
Relatar os dois tamanhos de efeito diferentes, ou intervalos de confiança para os dois tamanhos de efeito diferentes, seria uma boa idéia. Seria mais fácil interpretar isso se o resultado em cada um dos seus dois conjuntos de dados fosse o mesmo (não é?).
Peter Ellis
2
Você pode mostrar a significância estatística e o tamanho do efeito de maneira muito conveniente usando um gráfico de floresta! A apresentação de ICs de 95% significa que você está usando 4 números em vez de 2, mas, como todo mundo faz alusão, representa suficientemente a extensão de informações necessárias para comparar experimentos.
AdamO 12/06

Respostas:

20

Muitas pessoas argumentam que um valor- pode ser significativo ( ) ou não, e, portanto, nunca faz sentido comparar dois valores- entre si. Isto está errado; em alguns casos, sim.p < α ppp<αp

No seu caso particular, não há absolutamente nenhuma dúvida de que você pode comparar diretamente os valores- . Se o tamanho da amostra é fixo ( ), os valores de são monotonicamente relacionados aos valores de , que por sua vez são monotonicamente relacionados ao tamanho do efeito medido pelo de Cohen . Especificamente, . Isso significa que seus valores- estão em correspondência individual com o tamanho do efeito e, portanto, você pode ter certeza de que, se o valor- da propriedade A for maior que a propriedade B, o tamanho do efeito de A será menor do que para a propriedade B.n = 1000 p t d d = 2 t / pn=1000ptd ppd=2t/npp

Eu acredito que isso responde à sua pergunta.

Vários pontos adicionais:

  1. Isso é verdade apenas porque o tamanho da amostra é fixo. Se você obtiver para a propriedade A em um experimento com um tamanho de amostra para a propriedade B em outro experimento com outro tamanho de amostra, será mais difícil compará-los.p = 0,008 p = 0,002np=0,008p=0,002

    • Se a pergunta é especificamente se A ou B são melhor "discriminados" na população (por exemplo: quão bem você pode prever o sexo olhando os valores A ou B?), Então você deve observar o tamanho do efeito. Nos casos simples, conhecer e é suficiente para calcular o tamanho do efeito.npn

    • Se a pergunta é mais vaga: que experimento fornece mais "evidências" contra o nulo? (isso pode ser significativo se, por exemplo, A = B) - então o problema se torna complicado e contencioso, mas eu diria que o valor por definição é um resumo escalar das evidências contra o nulo, portanto, quanto menor o valor , mais forte a evidência, mesmo que o tamanho da amostra seja diferente.ppp

  2. Dizer que o tamanho do efeito para B é maior que para A, não significa que seja significativamente maior. Você precisa de uma comparação direta entre A e B para fazer essa afirmação.

  3. É sempre uma boa idéia relatar (e interpretar) tamanhos de efeito e intervalos de confiança, além dos valores- .p

ameba diz Restabelecer Monica
fonte
3
Bons pontos sobre monotonicidade e bons 3 pontos finais. Agora, re: a declaração "você pode ter certeza": verdadeira o suficiente para a amostra, mas "significativamente"? (Ou seja, com implicações confiáveis ​​para a população?) Você abordou isso brevemente no # 2. Um tratamento mais completo disso seria bem-vindo. Felicidades ~
rolando2
4
Isso está certo, mas eu também tentei deixar claro que isso está necessariamente certo neste caso (você também observa isso). Acho que Michelle estava afirmando que você não deve usar valores-p dessa maneira.
gung - Restabelece Monica
1
p
1
@AndrewM Talvez. Eu editei o início da minha resposta. Veja se você gosta mais agora.
Ameba diz Reinstate Monica
0

Obrigado a quem acabou de me rebaixar, pois agora tenho uma resposta completamente diferente para essa pergunta. Excluí a minha resposta original, pois está incorreta dessa perspectiva.

No contexto desta questão, que trata apenas da questão "foi A ou B um discriminador melhor no meu estudo", estamos lidando com um censo e não uma amostra. Assim, o uso de estatísticas inferenciais, como as utilizadas para produzir valores de p, é irrelevante. Estatísticas inferenciais são usadas para inferir estimativas populacionais daquelas que obtemos de nossa amostra. Se não queremos generalizar para uma população, esses métodos são desnecessários. (Há alguns problemas específicos em torno de valores ausentes em um censo, mas esses são irrelevantes nessa situação.)

Não há probabilidade de obter um resultado em uma população. Obtivemos o resultado que obtivemos. Portanto, a probabilidade de nossos resultados é de 100%. Não há necessidade de construir um intervalo de confiança - a estimativa pontual para a amostra é exata. Simplesmente não precisamos estimar nada.

No caso específico de "qual variável funcionou melhor com os dados que tenho", tudo o que precisamos fazer é analisar os resultados em forma de resumo simples. Uma tabela pode ser suficiente, talvez um gráfico como um gráfico de caixa.

Michelle
fonte
-1

Você obtém uma diferença em p, mas não está claro o que essa diferença significa (é grande, pequena, significativa?)

Talvez use o bootstrapping:

selecione (com substituição) de seus dados, refaça seus testes, calcule a diferença de p (p_a - p_b), repita 100-200 vezes

verifique qual fração de seus delta p é <0 (significando que p de A está abaixo de p de B)

Nota: Eu já vi isso, mas não sou especialista.

Martin
fonte
1
Essa resposta descreve uma maneira de comparar valores-p, mas a pergunta original parece não ter resposta: o procedimento faz algum sentido e como se interpreta os resultados?
whuber
-1

Adicionada uma resposta, pois era muito longa para um comentário!

Michelle tem uma boa resposta, mas os muitos comentários mostram algumas discussões comuns que surgem sobre valores-p. As idéias básicas são as seguintes:

1) Um valor p menor não significa que um resultado seja mais ou menos significativo. Significa apenas que as chances de obter um resultado pelo menos extremo são menos prováveis. A importância é um resultado binário com base no nível de significância escolhido (que você escolhe antes de executar o teste).

2) O tamanho do efeito (geralmente padronizado para # s de desvios padrão) é uma boa maneira de quantificar "quão diferentes" são dois números. Portanto, se a Quantidade A tiver um tamanho de efeito de 0,8 desvios padrão e a Quantidade B tiver um tamanho de efeito de 0,5 desvios padrão, você diria que há uma diferença maior entre os dois grupos na Quantidade A do que na Quantidade B. As medidas padrão são :

.2 desvios padrão = efeito "pequeno"

.5 desvios padrão = efeito "médio"

.8 desvios padrão = efeito "grande"

Duncan
fonte
1
Porém, dado o tamanho fixo da amostra, o valor p está diretamente monotonicamente relacionado ao tamanho do efeito!
Ameba diz Reinstate Monica