Em geral, padronizo minhas variáveis independentes em regressões, a fim de comparar adequadamente os coeficientes (dessa forma, eles têm as mesmas unidades: desvios-padrão). No entanto, com dados longitudinais / em painel, não tenho certeza de como devo padronizar meus dados, especialmente se estimar um modelo hierárquico.
Para ver por que isso pode ser um problema em potencial, suponha que você tenha indivíduos medidos ao longo de períodos t = 1 , … , T e você mediu uma variável dependente, y i , te uma variável independente x i , t . Se você executar uma regressão completa de pool, não há problema em padronizar seus dados desta maneira: x . z = ( x - média ( x ) ) / sd ( x , pois não altera a estatística t. Por outro lado, se você ajustar uma regressão não agrupada, ou seja, uma regressão para cada indivíduo, deverá padronizar seus dados apenas por indivíduo, não o conjunto de dados inteiro (no código R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
No entanto, se você ajustar um modelo hierárquico simples com uma interceptação variável por indivíduos, estará usando um estimador de contração, ou seja, está estimando um modelo entre regressão agrupada e não agrupada. Como devo padronizar meus dados? Usando os dados inteiros como uma regressão agrupada? Utilizando apenas indivíduos, como no caso não registrado?
fonte
Existe uma alternativa à padronização para trazer variáveis medidas com escalas diferentes para a mesma métrica. Chama-se Proporção de Escala Máxima (POMS) e não interfere nas distribuições multivariadas como a transformação z costuma fazer.
Todd Little recomenda explicitamente o POMS sobre a padronização z em seu livro sobre modelagem de equações estruturais longitudinais. A transformação Z apresenta problemas adicionais ao lidar com dados longitudinais, veja aqui: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/
fonte