Uma transformação de log é uma técnica válida para testar dados não normais?

Ao revisar um artigo, os autores declaram: "As variáveis de resultados contínuos que exibem uma distribuição distorcida foram transformadas, usando os logaritmos naturais, antes de os testes t serem conduzidos para satisfazer as premissas de pré-requisito da normalidade".

Essa é uma maneira aceitável de analisar dados não normais, principalmente se a distribuição subjacente não for necessariamente lognormal?

Essa pode ser uma pergunta muito estúpida, mas eu nunca vi isso antes ...

normal-distribution data-transformation t-test lognormal CLS
fonte

Bem, se a distribuição inicial não for log-normal, os dados transformados não satisfazem as premissas de pré-requisito da normalidade, então o que está sendo ganho pela transformação?

Macro

@ Macro - é verdade! (+1) - eles provavelmente só queriam aproximar as distribuições de simétricas, o que não é uma coisa ruim a se fazer no teste t, mas, a menos que eles verifiquem e escrevam, não sabemos se o log transformação induzida uma inclinação negativa que poderia ter feito as coisas piores ...

jbowman

Podemos inferir que, como foi feito para satisfazer a normalidade, e a normalidade foi verificada em primeiro lugar, essa normalidade foi verificada posteriormente. Está fortemente implícito no idioma aqui.

John John

Um teste t para os logaritmos não é o mesmo que um teste t para dados não transformados nem um teste não paramétrico. O teste t nos logs compara médias geométricas , não médias aritméticas (usuais). Essa é uma das várias considerações importantes para decidir se o uso dos logaritmos é aceitável (o que pode ser, dependendo do aplicativo).

whuber

Respostas:

É comum tentar aplicar algum tipo de transformação à normalidade (usando, por exemplo, logaritmos, raízes quadradas, ...) quando encontrado com dados que não são normais. Embora o logaritmo produza bons resultados para dados inclinados razoavelmente, não há garantia de que funcione nesse caso específico. Também devemos ter em mente os comentários do @whubers ao analisar os dados transformados: "Um teste t para os logaritmos não é o mesmo que um teste t para dados não transformados nem um teste não paramétrico. O teste t nos logs compara dados geométricos significa, não os meios aritméticos (usuais) ".

As transformações em normalidade devem sempre ser seguidas de uma investigação da suposição de normalidade, para avaliar se os dados transformados parecem "suficientemente normais". Isso pode ser feito usando, por exemplo, histogramas, gráficos QQ e testes de normalidade. O teste t é particularmente sensível a desvios da normalidade na forma de assimetria e, portanto, seria preferível um teste de normalidade direcionado para alternativas de inclinação. Inclinação da amostra de Pearson é uma estatística de teste adequada neste caso. $\frac{n^{-1}\sum_{i=1}^n(x_i-\bar{x})^3}{(n^{-1}\sum_{i=1}^n(x_i-\bar{x})^2)^{3/2}}$

Em vez de escolher uma transformação (como logaritmos) porque ela funciona na maioria das vezes, prefiro usar o procedimento Box-Cox para escolher uma transformação usando os dados fornecidos. No entanto, existem alguns problemas filosóficos com isso; em particular se isso deve afetar o número de graus de liberdade no teste t, já que usamos algumas informações da amostra ao escolher qual transformação usar.

Finalmente, uma boa alternativa para usar o teste t após uma transformação ou um teste não paramétrico clássico é usar o análogo de autoinicialização do teste t. Não requer a suposição de normalidade e é um teste sobre os meios não transformados (e não sobre qualquer outra coisa).

MånsT
fonte

+1 Discussão boa e atenciosa, com uma boa recomendação no final. Para obter mais informações sobre a versão bootstrap / resampling / permutation do teste t, consulte um thread recente em stats.stackexchange.com/q/24911 .

whuber

De um modo geral, se as premissas necessárias para realizar um teste t não forem atendidas, seria mais apropriado usar um teste não paramétrico.

user7045
fonte

Talvez. Testes não paramétricos quase sempre comparam medianas (ou outros percentis) ao invés de médias e, portanto, realmente abordam uma questão um pouco diferente. Mas isso não parece uma resposta útil à pergunta atual, que pergunta especificamente (e apenas) sobre o teste t dos logs dos dados.

whuber