Qual poderia ser o motivo do uso da transformação de raiz quadrada nos dados?

15

Existe alguma razão do que eu possa pensar, para transformar os dados com uma raiz quadrada? Quero dizer, o que sempre observo é que o R ^ 2 aumenta. Mas isso é provavelmente apenas por causa da centralização dos dados! Qualquer pensamento é apreciado!

MarkDollar
fonte
Eu respondi a esta pergunta e à pergunta mais geral aqui stats.stackexchange.com/questions/18844/…
IrishStat
3
Se a variável dependente for diferente, os quadrados R não podem ser comparados.

Respostas:

13

Em geral, a regressão paramétrica / GLM assume que a relação entre a variável Y e cada variável X é linear, que os resíduos após a montagem no modelo seguem uma distribuição normal e que o tamanho dos resíduos permanece praticamente o mesmo durante todo o processo ao longo da (s) sua (s) linha (s) ajustada (s). Quando seus dados não estão em conformidade com essas suposições, as transformações podem ajudar.

Deve ser intuitivo que, se é proporcional a X 2 , Y de raiz quadrada lineariza essa relação, levando a um modelo que melhor se ajusta às suposições e que explica mais variação (tem R 2 maior ). O enraizamento quadrado Y também ajuda quando você tem o problema de que o tamanho de seus resíduos aumenta progressivamente à medida que seus valores de XYX2YR2YXaumentar (ou seja, a dispersão dos pontos de dados ao redor da linha ajustada fica mais marcada à medida que você se move ao longo dela). Pense na forma de uma função de raiz quadrada: ela aumenta acentuadamente no início, mas depois satura. Portanto, aplicar uma transformação de raiz quadrada infla números menores, mas estabiliza números maiores. Assim, você pode pensar nisso como afastar pequenos resíduos com baixos valores da linha ajustada e espremer grandes resíduos com altos valores X em direção à linha. (Isso é taquigrafia mental, não é matemática adequada!)XX

Como Dmitrij e ocram dizem, esta é apenas uma transformação possível que ajudará em determinadas circunstâncias, e ferramentas como a fórmula de Box-Cox podem ajudá-lo a escolher a mais útil. Eu recomendaria adquirir o hábito de sempre olhar para gráficos de resíduos em relação aos valores ajustados (e também um gráfico de probabilidade normal ou histograma de resíduos) quando você se encaixa em um modelo. Você descobrirá que, com frequência, acaba conseguindo ver com isso que tipo de transformação ajudará.

Freya Harrison
fonte
Ei, obrigado! Conheço a função boxcox, mas fiquei pensando por que razões práticas a transformação sqrt faz sentido! Obrigado!
MarkDollar
1
se a variação dos erros estiver linearmente relacionada ao nível da série, será realizada uma transformação logarítmica. Se o desvio padrão estiver linearmente relacionado ao nível da série, será realizada uma transformação de raiz quadrada. A seleção não tem nada a ver com o tamanho dos resíduos no que se refere ao nível de y e tudo a ver com o acoplamento / desacoplamento no primeiro e no segundo momento.
IrishStat
1
Freya, +1 para abreviação mental >> matemática adequada. Essa intuição também é uma razão para usar L.5-métricas para clustering ?
Denis19 /
Oi Denis, tenho medo de não saber nada sobre clustering.
precisa
10

λ=0.5

yN(Xβ,σ2In)

No entanto, esse valor fixo a priori pode ser (e provavelmente é) não ideal. Em R, você pode considerar uma função da carbiblioteca powerTransformque ajuda a estimar um valor ideal para as transformações de Box-Cox para cada uma das variáveis ​​que participaram da regressão linear ou qualquer dado com o qual você trabalha (consulte example(powerTransform)mais detalhes).

Dmitrij Celov
fonte
5

Quando a variável segue uma distribuição de Poisson, os resultados da transformação da raiz quadrada estarão muito mais próximos do Gaussiano.

Harvey Motulsky
fonte
Você poderia dar alguns argumentos para esta reivindicação?
Utdiscant
Realmente não ajuda muito na distribuição individual com um valor específico do parâmetro, mas torna a família de distribuição obtida quando o parâmetro está variando, mais próxima de uma família normal com variação constante
kjetil b halvorsen
3

Às vezes, defender a raiz quadrada faz com que uma variável não normal apareça como uma variável normal em problemas de regressão. O logaritmo é outra transformação possível comum.

ocram
fonte
0

A matriz de distância calculada com Bray-Curtis geralmente não é métrica para alguns dados, dando origem a autovalores negativos. Uma das soluções para superar esse problema é transformá-lo (logarítmico, raiz quadrada ou raiz quadrada dupla).

Ahmed Nur Osman
fonte