As variáveis ​​são frequentemente ajustadas (por exemplo, padronizadas) antes de criar um modelo - quando é uma boa ideia e quando é ruim?

57

Em que circunstâncias você deseja ou não deseja dimensionar ou padronizar uma variável antes do ajuste do modelo? E quais são as vantagens / desvantagens de escalar uma variável?

Andrew
fonte
Pergunta muito semelhante aqui: stats.stackexchange.com/q/7112/3748 há mais alguma coisa que você está procurando?
Michael Bishop
Sim - Eu gostaria de saber para os modelos em geral e não apenas o modelo linear
Andrew
11
Existem muitos modelos possíveis e possíveis usos de modelos. Se você pode tornar suas perguntas mais específicas e reduzir a sobreposição com outras, melhor.
Michael Bishop
Além do link acima, esta pergunta: quando você deve centralizar seus dados quando você deve padronizar será de seu interesse.
gung - Restabelece Monica

Respostas:

37

A padronização é sobre os pesos de diferentes variáveis ​​para o modelo. Se você fizer a padronização "apenas" por uma questão de estabilidade numérica, pode haver transformações que produzam propriedades numéricas muito semelhantes, mas diferentes significados físicos que podem ser muito mais apropriados para a interpretação. O mesmo vale para a centralização, que geralmente faz parte da padronização.

Situações em que você provavelmente deseja padronizar:

  • as variáveis ​​são diferentes quantidades físicas
  • e os valores numéricos estão em escalas de magnitude muito diferentes
  • e não há conhecimento "externo" de que as variáveis ​​com alta variação (numérica) devem ser consideradas mais importantes.

Situações em que você não pode querer padronizar:

  • se as variáveis ​​tiverem a mesma quantidade física e forem (aproximadamente) da mesma magnitude, por exemplo
    • concentrações relativas de diferentes espécies químicas
    • absorvâncias em diferentes comprimentos de onda
    • intensidade de emissão (caso contrário, mesmas condições de medição) em diferentes comprimentos de onda
  • você definitivamente não deseja padronizar variáveis ​​que não mudam entre as amostras (canais de linha de base) - você apenas explode o ruído da medição (você pode excluí-las do modelo)
  • se você tiver essas variáveis ​​relacionadas fisicamente, seu ruído de medição pode ser aproximadamente o mesmo para todas as variáveis, mas a intensidade do sinal varia muito mais. Ou seja, variáveis ​​com valores baixos apresentam maior ruído relativo. A padronização explodiria o barulho. Em outras palavras, você pode ter que decidir se deseja que o ruído relativo ou absoluto seja padronizado.
  • Pode haver valores fisicamente significativos que você pode usar para relacionar seu valor medido, por exemplo, em vez da intensidade transmitida, use o percentual da intensidade transmitida (transmitância T).

Você pode fazer algo "intermediário" e transformar as variáveis ​​ou escolher a unidade para que as novas variáveis ​​ainda tenham significado físico, mas a variação no valor numérico não seja tão diferente, por exemplo,

  • se você trabalha com ratos, use peso corporal ge comprimento em cm (variação esperada de variação de cerca de 5 para ambos) em vez das unidades de base kg e m (variação esperada de 0,005 kg e 0,05 m - uma ordem de magnitude diferente).
  • A=log10T

Similar para centralização:

  • Pode haver (fisicamente / quimicamente / biologicamente / ...) valores de linha de base significativos disponíveis (por exemplo, controles, persianas etc.)
  • A média é realmente significativa? (O ser humano médio tem um ovário e um testículo)
cbeleites suporta Monica
fonte
+1 e aceites por causa da lista útil de quando e quando não muito padronizar, graças
Andrew
6
+1 para "O ser humano médio tem um ovário e um testículo" (e também pelo restante da resposta ;-).
gung - Restabelece Monica
11
@cbeleites existe alguma chance de você fornecer um link para um recurso que explica os canais de linha de base no contexto que você usou em sua resposta? Não ouvi o termo antes e estou obtendo resultados de pesquisa que não são úteis para entender seu uso do termo aqui. Obrigado!
Mahonya
11
1
9

Uma coisa que sempre me pergunto antes da padronização é: "Como interpretarei a saída?" Se houver uma maneira de analisar dados sem transformação, isso pode ser preferível puramente do ponto de vista da interpretação.

jebyrnes
fonte
7

Em geral, eu não recomendo dimensionamento ou padronização, a menos que seja absolutamente necessário. A vantagem ou o apelo de um processo desse tipo é que, quando uma variável explicativa tem uma dimensão e magnitude física totalmente diferente da variável resposta, o escalonamento através da divisão por desvio padrão pode ajudar em termos de estabilidade numérica e permitir comparar efeitos em vários Variáveis ​​explicativas. Com a padronização mais comum, o efeito da variável é a quantidade de alteração na variável de resposta quando a variável explicativa aumenta em um desvio padrão; também indica que o significado do efeito da variável (a quantidade de mudança na variável de resposta quando a variável explicativa aumenta em uma unidade) seria perdido, embora o valor estatístico da variável explicativa permaneça inalterado. Contudo, quando a interação é considerada em um modelo, a escala pode ser muito problemática, mesmo para testes estatísticos, devido a uma complicação que envolve um ajuste de escala estocástica no cálculo do erro padrão do efeito da interação (Preacher, 2003). Por esse motivo, o dimensionamento por desvio padrão (ou padronização / normalização) geralmente não é recomendado, especialmente quando há interações.

Preacher, KJ, Curran, PJ e Bauer, DJ, 2006. Ferramentas computacionais para sondar efeitos de interação em regressão linear múltipla, modelagem multinível e análise de curvas latentes. Jornal de Estatísticas Educacionais e Comportamentais, 31 (4), 437-448.

pólo azul
fonte
4
Eu questiono sua afirmação de que a padronização de preditores "geralmente não é recomendada, especialmente quando há interações". Gelman e Hill, nem Raudenbush e Bryk mencionam essa preocupação em seus textos. Mas quando tiver uma chance, examinarei as referências que você menciona com interesse.
Michael Bishop
Se usarmos o universo de calibração std como a variável de escala, a escala não será estocástica.
adam
Alguém pode confirmar se o dimensionamento é prejudicial em caso de termos de interação? Isso não parece ter sido resolvido na discussão acima.
Talik3233 30/06