Que outras transformações normalizadoras são comumente usadas além das comuns, como raiz quadrada, log, etc.?

10

Na análise das pontuações dos testes (por exemplo, em Educação ou Psicologia), técnicas comuns de análise geralmente assumem que os dados são normalmente distribuídos. No entanto, talvez mais frequentemente do que não, as pontuações tendem a se desviar, às vezes, muito do normal.

Estou familiarizado com algumas transformações normalizadoras básicas, como: raízes quadradas, logaritmos, transformações recíprocas para reduzir a inclinação positiva, versões refletidas acima para reduzir a inclinação negativa, quadrado para distribuições leptokurtic. Ouvi falar de transformações do arco-seno e de poder, embora não tenha realmente conhecimento sobre elas.

Então, estou curioso para saber quais outras transformações são comumente usadas pelos analistas?

Mike Wong
fonte

Respostas:

5

A transformação Box-Cox inclui muitos dos que você citou. Veja esta resposta para alguns detalhes:

ATUALIZAÇÃO: Esses slides fornecem uma boa visão geral das transformações de Box-Cox.

ars
fonte
Se aplicarmos ferramentas t aos dados transformados de Box-Cox, obteremos inferências sobre a diferença de médias dos dados transformados. Como podemos interpretar aqueles na escala original de medida? (A média dos valores transformados não é a média transformada). Em outras palavras (se eu estiver correto), tomar a transformação inversa da estimativa da média, na escala transformada, não fornece uma estimativa da média na escala original.
George Dontas
@ gd047, alguns testes assumem a normalidade da distribuição da média, não dos dados. O teste t tende a ser bastante robusto em relação aos dados subjacentes. Você está certo - nos testes pós-transformação, os resultados são relatados após a transformação inversa e a interpretação pode ser muito problemática. Tudo se resume a quão "anormais" são seus dados. Você pode fugir sem transformar ou aplicar, por exemplo, uma transformação de log que seja mais fácil de interpretar. Caso contrário, é contextual sobre a transformação e o domínio reais e eu realmente não tenho uma boa resposta. Pode valer a pena pedir para ver o que os outros dizem?
ars
10

O primeiro passo deve ser perguntar por que suas variáveis ​​não são normalmente distribuídas. Isso pode ser esclarecedor. Descobertas comuns da minha experiência:

  • Os testes de capacidade (por exemplo, exames, testes de inteligência, testes de admissão) tendem a ter uma inclinação negativa quando houver efeitos no teto e uma inclinação positiva quando houver efeitos no piso. Ambas as descobertas sugerem que o nível de dificuldade do teste não é otimizado para a amostra, sendo muito fácil ou muito difícil para diferenciar otimamente a capacidade. Isso também implica que a variável latente de interesse ainda possa ser normalmente distribuída, mas que a estrutura do teste está induzindo uma inclinação na variável medida.
  • Os testes de habilidade geralmente apresentam valores discrepantes em termos de pontuadores baixos. Em suma, existem muitas maneiras de se sair mal em um teste. Em particular, isso às vezes pode ser observado nos exames em que há uma pequena porcentagem de alunos em que uma combinação de falta de aptidão e falta de esforço se combinam para criar resultados muito baixos. Isso implica que a variável latente de interesse provavelmente tenha alguns valores discrepantes.
  • Em relação aos testes de autorrelato (por exemplo, personalidade, testes de atitude etc.), a distorção ocorre frequentemente quando a amostra é inerentemente alta na escala (por exemplo, as distribuições de satisfação com a vida são negativamente distorcidas porque a maioria das pessoas está satisfeita) ou quando a escala foi otimizado para uma amostra diferente daquela em que o teste está sendo aplicado (por exemplo, aplicação de uma medida clínica de depressão a uma amostra não clínica).

Esta primeira etapa pode sugerir modificações no projeto para o teste. Se você está ciente desses problemas antes do tempo, pode até projetar seu teste para evitá-los, se os considerar problemáticos.

O segundo passo é decidir o que fazer na situação em que você possui dados não normais. As transformações de notas são apenas uma estratégia possível. Eu reiteraria o conselho geral de uma resposta anterior sobre a não normalidade :

  • Muitos procedimentos que assumem a normalidade dos resíduos são robustos a violações modestas da normalidade dos resíduos
  • Bootstrapping é geralmente uma boa estratégia
  • As transformações são outra boa estratégia. Observe que, pela minha experiência, os tipos de distorção moderada que geralmente ocorrem com testes psicológicos de habilidade e autorrelato geralmente podem ser facilmente transformados em uma distribuição que aproxima a normalidade usando uma transformação logarítmica, sqrt ou inversa (ou o equivalente inverso).
Jeromy Anglim
fonte
9

John Tukey discute sistematicamente transformações em seu livro sobre EDA. Além da família Box-Cox (transformações de potência em escala afinada), ele define uma família de transformações "dobradas" para proporções (essencialmente potências de x / (1-x)) e contagens "iniciadas" (adicionando um deslocamento positivo aos dados contados antes de transformá-los). As transformações dobradas, que geralmente generalizam o logit, são especialmente úteis para as pontuações dos testes.

De uma maneira completamente diferente, Johnson e Kotz, em seus livros sobre distribuições, oferecem muitas transformações destinadas a converter as estatísticas de teste em uma normalidade aproximada (ou em alguma outra distribuição de destino), como a transformação de raiz cúbica para o qui-quadrado. Este material é uma ótima fonte de idéias para transformações úteis quando você antecipa que seus dados seguirão alguma distribuição específica.

whuber
fonte
2

Uma opção simples é usar somas de pontuação em vez das próprias pontuações. A soma das distribuições tende à normalidade. Por exemplo, em Educação, você pode adicionar as pontuações de um aluno em uma série de testes.

Outra opção, é claro, é usar técnicas que não assumem normalidade, que são subestimadas e subutilizadas.

Carlos Accioly
fonte
11
Acredito que as somas precisam ser normalizadas (por exemplo, use a pontuação média) para que a distribuição tenda à normalidade.
11
Sim, está correto. No meu exemplo, presumi que as aulas teriam o mesmo número de alunos, o que não é realista. Obrigado.
Carlos Accioly
1

XFY euumambertW×F

XN(μ,σ2)θ=(μx,σx,δ,α)α1 1

Agora, como uma transformação de dados, isso se torna interessante, pois a transformação é bijetiva (quase bijetiva para casos distorcidos) e pode ser obtida explicitamente usando a função W de Lambert (daí o nome Lambert W x F). Isso significa que podemos remover a distorção dos dados e também remover caudas pesadas (bijetivamente!).

Você pode experimentá-lo usando o pacote LambertW R, com o manual mostrando muitos exemplos de como usá-lo.

Para aplicativos, veja estas postagens

Georg M. Goerg
fonte