Eu tenho amostras de um conjunto de dados altamente distorcido (parecido com uma distribuição exponencial) sobre a participação dos usuários (por exemplo: número de postagens), que têm tamanhos diferentes (mas não menos que 200) e quero comparar sua média. Para isso, estou usando testes t não pareados de duas amostras (e testes t com o fator de Welch, quando as amostras tinham variações diferentes). Como ouvi dizer que, para amostras realmente grandes, não importa que a amostra não seja distribuída normalmente.
Alguém, revisando o que fiz, disse que os testes que estou usando não eram adequados para meus dados. Eles sugeriram transformar minhas amostras em log antes de usar os testes t.
Eu sou iniciante, então me parece realmente confuso responder minhas perguntas de pesquisa com "métrica de log de participação".
Eles estão errados? Estou errado? Se estiverem errados, há um livro ou artigo científico que eu possa citar / mostrar a eles? Se eu estiver errado, qual teste devo usar?
fonte
Respostas:
Eu não chamaria de 'exponencial' particularmente altamente distorcido. Seu log é distintamente inclinado para a esquerda, por exemplo, e sua distorção de momento é de apenas 2.
1) Usar o teste t com dados exponenciaisn perto de 500 é bom :
a) O numerador da estatística de teste deve estar correto: se os dados são exponenciais independentes com escala comum (e não são substancialmente mais pesados do que isso), então suas médias são distribuídas gama com parâmetro de forma igual ao número de observações. Sua distribuição parece muito normal para o parâmetro de forma maior que cerca de 40 (aproximadamente, dependendo da distância que você precisa na cauda).
Isso é capaz de prova matemática, mas matemática não é ciência. É possível verificar empiricamente via simulação, é claro, mas se você estiver errado sobre a exponencialidade, poderá precisar de amostras maiores. É assim que a distribuição das somas amostrais (e, portanto, as médias amostrais) dos dados exponenciais se parece quando n = 40:
Muito ligeiramente inclinado. Essa assimetria diminui conforme a raiz quadrada do tamanho da amostra. Então, em n = 160, é metade da inclinação. Em n = 640, é um quarto da inclinação:
Para que isso seja efetivamente simétrico, é possível inverter a média e plotá-la por cima:
Azul é o original, vermelho é invertido. Como você vê, eles são quase coincidentes.
-
-
c) O que realmente importa, no entanto, é a distribuição de toda a estatística sob o valor nulo. A normalidade do numerador não é suficiente para fazer com que a estatística t tenha uma distribuição t. No entanto, no caso de dados exponenciais, isso também não é um problema:
Observe, no entanto, que para dados realmente exponenciais, o desvio padrão será diferente apenas se as médias forem diferentes. Se a presunção exponencial for o caso, então, sob o nulo, não há necessidade especial de se preocupar com diferentes variações populacionais, pois elas ocorrem apenas sob a alternativa. Portanto, um teste t de igual variância ainda deve ser bom (nesse caso, a boa aproximação acima que você vê no histograma pode até ser um pouco melhor).
2) A obtenção de logs ainda pode permitir que você faça sentido, embora
[Se você fizer esse teste nos logs, eu estaria inclinado a sugerir fazer um teste de variação igual nesse caso.]
Portanto - com a mera intervenção de talvez uma ou duas frases justificando a conexão, semelhante ao que eu tenho acima - você deve poder escrever suas conclusões não sobre o log da métrica de participação, mas sobre a própria métrica de participação.
3) Há muitas outras coisas que você pode fazer!
a) você pode fazer um teste adequado para dados exponenciais. É fácil obter um teste baseado na razão de verossimilhança. Por acaso, para dados exponenciais, você recebe um teste F de amostra pequena (com base em uma razão de médias) para essa situação no caso unilateral; o LRT bicaudal geralmente não teria uma proporção igual em cada cauda para amostras pequenas. (Isso deve ter uma potência melhor que o teste t, mas a potência para o teste t deve ser bastante razoável, e eu esperaria que não houvesse muita diferença nos tamanhos das amostras.)
b) você pode fazer um teste de permutação - baseie-o no teste t, se quiser. Portanto, a única coisa que muda é o cálculo do valor-p. Ou você pode fazer algum outro teste de reamostragem, como um teste baseado em auto-inicialização. Isso deve ter bom poder, embora dependa parcialmente de qual estatística de teste você escolhe em relação à distribuição que possui.
c) você pode fazer um teste não paramétrico baseado em classificação (como o Wilcoxon-Mann-Whitney). Se você presumir que, se as distribuições diferirem, elas diferem apenas por um fator de escala (apropriado para uma variedade de distribuições distorcidas, incluindo a exponencial), você poderá obter um intervalo de confiança para a proporção dos parâmetros da escala.
[Para esse propósito, sugiro trabalhar na escala de log (a mudança de localização nos logs é o log da mudança de escala). Ele não altera o valor-p, mas permite exponenciar a estimativa pontual e os limites de IC para obter um intervalo para a mudança de escala.]
Isso também deve ter um poder muito bom se você estiver na situação exponencial, mas provavelmente não tão bom quanto usar o teste t.
Uma referência que considera um conjunto consideravelmente mais amplo de casos para a alternativa de deslocamento de local (com heterogeneidade de variação e assimetria sob o nulo, por exemplo) é
Fagerland, MW e L. Sandvik (2009),
"Desempenho de cinco testes de localização de duas amostras para distribuições distorcidas com variações desiguais",
Contemporary Clinical Trials , 30 , 490–496
Geralmente, ele tende a recomendar o teste U da Welch (um dos testes considerados por Welch e o único que eles testaram). Se você não estiver usando exatamente a mesma estatística Welch, as recomendações podem variar um pouco (embora provavelmente não muito). [Observe que, se suas distribuições forem exponenciais, você estará interessado em uma alternativa de escala, a menos que faça registros ... nesse caso, você não terá variações desiguais.]
fonte