Eu tenho o resumo de 5 números (min, Q1, mediana, Q3, max) de dois boxplots e queria testar se as médias dos grupos nos dois boxplots eram significativamente diferentes.
Eu gostaria de fazer isso usando um teste t, mas não tenho os dados disponíveis para mim (apenas o resumo de 5 números).
Existe uma maneira de testar as diferenças da média? Ou uma aproximação grosseira a um teste t? Além disso, eu sei o tamanho da amostra e a média.
Respostas:
Como você tem as médias da amostra e sua hipótese se refere às médias da população, presumi que você definitivamente desejará usar as médias da amostra a seguir.
Com algumas suposições distributivas, você certamente pode chegar a algum lugar.
Se o tamanho da amostra for muito grande, você poderá assumir uma distribuição para dimensionar os IQRs com uma estimativa de e apenas tratá-la como um teste z. (n = 30 não é realmente "grande")σ
por exemplo, se você assumir a normalidade, o intervalo interquartil da população é de cerca de 1,35 ; portanto, se a amostra for grande o suficiente para que o IQR da população seja estimado com pouco erro, você pode estimar e fazer um teste eficaz no normal.σσ σ
Neste caso, se você não assumir variâncias iguais, então você obtém , em seguida, calcular ~ σ 2 D = ~ σ 2 1 / n 1 + ~ σ 2 2 / n 2 e, em seguida, levá z ∗ = ˉ x 1 - ˉ x 2σEu~= IQREu/ 1,35 σ~2D= σ~21/ n1+ σ~22/ n2 e procure tabelas z.z∗= x¯1- x¯2σ~D
[Como verificação, fiz uma simulação em que geramos amostras normais do tamanho 30 (com variação igual, embora não o tenha assumido no cálculo), e o teste é anticonservador (ou seja, a taxa de erro do tipo I é mais alto que o nominal), então, quando você tenta fazer um teste de 5%, parece que você está realmente chegando a algo em torno de 6,8% (a aproximação provavelmente será um pouco pior se as variações diferirem). Se você pode tolerar isso, provavelmente está bem. É claro que você poderia diminuir o nível de significância para compensar o anticonservadorismo, mas eu estaria inclinado a morder a bala e tentar a opção 2. Uma vez que os tamanhos das amostras atinjam mais ou menos 200, isso funciona muito bem.]
Se o tamanho da amostra não for grande, você ainda poderá fazer alguma coisa, mas a distribuição da estatística dependerá do método exato pelo qual os quartis foram calculados, bem como dos tamanhos específicos da amostra.
Em particular, você pode
b. não faça uma suposição de variância igual e use uma estatística de teste mais semelhante a uma estatística do tipo Welch-Satterthwaite.
No primeiro caso, a distribuição da estatística de teste pode ser obtida de maneira bastante simples, mediante simulação da distribuição assumida. (No segundo caso, as coisas são um pouco mais complicadas, porque a distribuição dependerá da maneira como os spreads diferem - mas algo ainda pode ser feito.)
Se você não está preparado para fazer alguma suposição distributiva, ainda pode limitar o desvio padrão da amostra e obter limites superior e inferior na estatística t; no entanto, os limites podem não ser muito estreitos.
Se você não tivesse as médias amostrais, poderia usar as medianas em um análogo do teste t. Se você está assumindo normalidade (ou mesmo simetria e existência de médias), as medianas estimam as respectivas médias; no entanto, como precisamos lidar apenas com a diferença de meios, suposições substancialmente mais fracas serão suficientes para que isso funcione como um teste.
Nesse caso, você pode obter valores críticos (ou mesmo valores p) via simulação com bastante facilidade, mas a distribuição nula sob uma suposição normal é bem próxima da distribuição t; uma aproximação bastante decente do valor-p pode ser obtida das tabelas t, mas graus adequados de liberdade são substancialmente mais baixos do que os obtidos em um teste t (quase a metade!) - e a estatística do teste deve ser escalada também, uma vez que as variações não correspondem exatamente.
Isso não terá um poder especialmente bom no normal, mas terá uma boa robustez a desvios da normalidade.
Como exemplo, para uma estatística deste formulário:
fonte