Consegui uma forte relação linear entre minha variável e Y após transformar duplamente a resposta. O modelo era Y ∼ X, mas eu o transformei em √ melhorarR20,19-0,76.
Claramente fiz uma cirurgia decente sobre esse relacionamento. Alguém pode discutir as armadilhas de fazer isso, como perigos de transformações excessivas ou possíveis violações de princípios estatísticos?
regression
data-transformation
r-squared
Info5ek
fonte
fonte
Respostas:
Você não pode realmente comparar antes e depois, porque a variabilidade subjacente em Y é diferente. Então, você literalmente pode tomar nenhum conforto qualquer que seja a partir da mudança em R 2 . Isso não diz nada de valor na comparação dos dois modelos.R2 Y R2
Os dois modelos são diferentes de várias maneiras, portanto significam coisas diferentes - eles assumem coisas muito diferentes sobre a forma do relacionamento e a variabilidade do termo de erro (quando considerados em termos do relacionamento entre e X ). Portanto, se você estiver interessado em modelar Y (se Y for significativo), produza um bom modelo para isso. Se você estiver interessado em modelar √Y X Y Y (/ √Y−−√ é significativo), produza um bom modelo para isso. Se √Y−−√ carrega significado, então faça um bom modelo para isso. Mas compare todos os modelos concorrentes em escalas comparáveis. R2em respostas diferentes simplesmente não são comparáveis.Y/X−−−−√ R2
Se você está apenas tentando relacionamentos diferentes na esperança de encontrar uma transformação com um alto - ou qualquer outra medida de 'bom ajuste' - as propriedades de qualquer inferência que você queira conduzir serão impactadas pela existência de esse processo de pesquisa.R2
As estimativas tenderão a ter um desvio de zero, os erros padrão serão muito pequenos, os valores de p serão muito pequenos, os intervalos de confiança serão muito estreitos. Seus modelos parecerão, em média, 'muito bons' (no sentido de que o comportamento fora da amostra será decepcionante em comparação com o comportamento dentro da amostra).
Para evitar esse tipo de ajuste excessivo, é necessário, se possível, fazer a identificação e estimativa do modelo em diferentes subconjuntos dos dados (e avaliação do modelo em um terço). Se você repetir esse tipo de procedimento em muitas "divisões" dos dados coletados aleatoriamente, terá uma noção melhor de quão reprodutíveis são seus resultados.
Existem muitos posts aqui com pontos relevantes sobre essas questões: pode valer a pena tentar algumas pesquisas.
(Se você tem boas razões a priori para escolher uma transformação específica, essa é uma questão diferente. Mas pesquisar o espaço das transformações para encontrar algo que se encaixa traz todos os tipos de problemas do tipo 'espionagem de dados').
fonte
Há um problema maior do que os identificados por @Glen_b.
E eu recebo um de 0,49 e um valor P que é de 5,5 × 10 - 16 .R2 5.5×10−16
Você tem nos dois lados da equação.X
fonte
Existem dois elementos no exemplo de @ Peter, que podem ser úteis para desemaranhar:
(1) Especificação incorreta do modelo. Os modelos
&
Seguindo o exemplo ...
Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.
fonte
A resposta anterior de @Glen_b é muito importante. Brincar com transformações distorce todas as partes da inferência estatística e resulta emR2 isso é altamente tendencioso. Resumindo, não ter um parâmetro no modelo para tudo o que você não conhece dará uma falsa sensação de precisão. É por isso que as splines de regressão agora são tão populares.
fonte