Existe alguma razão do que eu possa pensar, para transformar os dados com uma raiz quadrada? Quero dizer, o que sempre observo é que o R ^ 2 aumenta. Mas isso é provavelmente apenas por causa da centralização dos dados! Qualquer pensamento é apreciado!
regression
data-transformation
variance-stabilizing
MarkDollar
fonte
fonte
Respostas:
Em geral, a regressão paramétrica / GLM assume que a relação entre a variávelY e cada variável X é linear, que os resíduos após a montagem no modelo seguem uma distribuição normal e que o tamanho dos resíduos permanece praticamente o mesmo durante todo o processo ao longo da (s) sua (s) linha (s) ajustada (s). Quando seus dados não estão em conformidade com essas suposições, as transformações podem ajudar.
Deve ser intuitivo que, se é proporcional a X 2 , Y de raiz quadrada lineariza essa relação, levando a um modelo que melhor se ajusta às suposições e que explica mais variação (tem R 2 maior ). O enraizamento quadrado Y também ajuda quando você tem o problema de que o tamanho de seus resíduos aumenta progressivamente à medida que seus valores de XY X2 Y R2 Y X aumentar (ou seja, a dispersão dos pontos de dados ao redor da linha ajustada fica mais marcada à medida que você se move ao longo dela). Pense na forma de uma função de raiz quadrada: ela aumenta acentuadamente no início, mas depois satura. Portanto, aplicar uma transformação de raiz quadrada infla números menores, mas estabiliza números maiores. Assim, você pode pensar nisso como afastar pequenos resíduos com baixos valores da linha ajustada e espremer grandes resíduos com altos valores X em direção à linha. (Isso é taquigrafia mental, não é matemática adequada!)X X
Como Dmitrij e ocram dizem, esta é apenas uma transformação possível que ajudará em determinadas circunstâncias, e ferramentas como a fórmula de Box-Cox podem ajudá-lo a escolher a mais útil. Eu recomendaria adquirir o hábito de sempre olhar para gráficos de resíduos em relação aos valores ajustados (e também um gráfico de probabilidade normal ou histograma de resíduos) quando você se encaixa em um modelo. Você descobrirá que, com frequência, acaba conseguindo ver com isso que tipo de transformação ajudará.
fonte
No entanto, esse valor fixo a priori pode ser (e provavelmente é) não ideal. Em R, você pode considerar uma função da
car
bibliotecapowerTransform
que ajuda a estimar um valor ideal para as transformações de Box-Cox para cada uma das variáveis que participaram da regressão linear ou qualquer dado com o qual você trabalha (consulteexample(powerTransform)
mais detalhes).fonte
Quando a variável segue uma distribuição de Poisson, os resultados da transformação da raiz quadrada estarão muito mais próximos do Gaussiano.
fonte
Às vezes, defender a raiz quadrada faz com que uma variável não normal apareça como uma variável normal em problemas de regressão. O logaritmo é outra transformação possível comum.
fonte
A matriz de distância calculada com Bray-Curtis geralmente não é métrica para alguns dados, dando origem a autovalores negativos. Uma das soluções para superar esse problema é transformá-lo (logarítmico, raiz quadrada ou raiz quadrada dupla).
fonte