Na análise das pontuações dos testes (por exemplo, em Educação ou Psicologia), técnicas comuns de análise geralmente assumem que os dados são normalmente distribuídos. No entanto, talvez mais frequentemente do que não, as pontuações tendem a se desviar, às vezes, muito do normal.
Estou familiarizado com algumas transformações normalizadoras básicas, como: raízes quadradas, logaritmos, transformações recíprocas para reduzir a inclinação positiva, versões refletidas acima para reduzir a inclinação negativa, quadrado para distribuições leptokurtic. Ouvi falar de transformações do arco-seno e de poder, embora não tenha realmente conhecimento sobre elas.
Então, estou curioso para saber quais outras transformações são comumente usadas pelos analistas?
O primeiro passo deve ser perguntar por que suas variáveis não são normalmente distribuídas. Isso pode ser esclarecedor. Descobertas comuns da minha experiência:
Esta primeira etapa pode sugerir modificações no projeto para o teste. Se você está ciente desses problemas antes do tempo, pode até projetar seu teste para evitá-los, se os considerar problemáticos.
O segundo passo é decidir o que fazer na situação em que você possui dados não normais. As transformações de notas são apenas uma estratégia possível. Eu reiteraria o conselho geral de uma resposta anterior sobre a não normalidade :
fonte
John Tukey discute sistematicamente transformações em seu livro sobre EDA. Além da família Box-Cox (transformações de potência em escala afinada), ele define uma família de transformações "dobradas" para proporções (essencialmente potências de x / (1-x)) e contagens "iniciadas" (adicionando um deslocamento positivo aos dados contados antes de transformá-los). As transformações dobradas, que geralmente generalizam o logit, são especialmente úteis para as pontuações dos testes.
De uma maneira completamente diferente, Johnson e Kotz, em seus livros sobre distribuições, oferecem muitas transformações destinadas a converter as estatísticas de teste em uma normalidade aproximada (ou em alguma outra distribuição de destino), como a transformação de raiz cúbica para o qui-quadrado. Este material é uma ótima fonte de idéias para transformações úteis quando você antecipa que seus dados seguirão alguma distribuição específica.
fonte
Uma opção simples é usar somas de pontuação em vez das próprias pontuações. A soma das distribuições tende à normalidade. Por exemplo, em Educação, você pode adicionar as pontuações de um aluno em uma série de testes.
Outra opção, é claro, é usar técnicas que não assumem normalidade, que são subestimadas e subutilizadas.
fonte
Agora, como uma transformação de dados, isso se torna interessante, pois a transformação é bijetiva (quase bijetiva para casos distorcidos) e pode ser obtida explicitamente usando a função W de Lambert (daí o nome Lambert W x F). Isso significa que podemos remover a distorção dos dados e também remover caudas pesadas (bijetivamente!).
Você pode experimentá-lo usando o pacote LambertW R, com o manual mostrando muitos exemplos de como usá-lo.
Para aplicativos, veja estas postagens
fonte