A ideia de fazer com que os dados tenham média zero

12

Costumo ver pessoas que fazem com que uma dimensão / recurso de um conjunto de dados seja de média zero, removendo a média de todos os elementos. Mas eu nunca entendi por que fazer isso? Qual é o efeito de fazer isso como uma etapa de pré-processamento? Melhora o desempenho da classificação? Ajuda a responder algo sobre o conjunto de dados? Ajuda ao fazer uma visualização para entender os dados?

Jack Twain
fonte
9
Essa abordagem é chamada de centralização . Uma de suas aplicações é transformar a interceptação do modelo de regressão em "y previsto quando x está na média", tornando a interceptação um pouco mais interpretável.
Penguin_Knight
Um recurso / conjunto de dados centralizado também pode ser considerado bem condicionado . Veja aqui uma explicação visual. A operação de entrada de normalização facilita muito a descida do gradiente.
sintonizado

Respostas:

12

Alguns casos em que "centralizar os dados em sua média" (daqui em diante apenas "des-significado") é útil:

N(10,4)N(100,4)

2) Simplifique os cálculos dos momentos mais altos: embora a adição de uma constante a uma variável aleatória não altere sua variância ou sua covariância com outra variável aleatória, ainda assim, se você tiver uma média diferente de zero e precisar escrever os cálculos detalhados, você precisa escrever todos os termos e mostrar que eles são cancelados. Se as variáveis ​​não forem significadas, você salva muitos cálculos inúteis.

3) Variáveis ​​aleatórias centradas em suas médias são o objeto do Teorema do Limite Central

4) Os desvios do "valor médio" são, em muitos casos, a questão do interesse, e se eles tendem a ser "acima ou abaixo da média", em vez dos valores reais das variáveis ​​aleatórias. Os desvios "de tradução" (visual e / ou computacional) abaixo da média como valores negativos e desvios acima da média como valores positivos tornam a mensagem mais clara e mais forte.

Para discussões mais aprofundadas, consulte também

Ao realizar uma regressão múltipla, quando você deve centralizar suas variáveis ​​preditoras e quando deve padronizá-las?

Centralizando dados em regressão múltipla

Se você pesquisar "dados centralizados" no CV, também encontrará outras postagens interessantes.

Alecos Papadopoulos
fonte
@ OP: Eu acho que esta resposta deve ser aceita.
Rottweiler #
4

Além disso, por razões práticas, é vantajoso centralizar os dados, por exemplo, ao treinar redes neurais.

A idéia é que, para treinar uma rede neural, é necessário resolver um problema de otimização não convexo usando alguma abordagem baseada em gradiente. Os gradientes são calculados por meio de retropropagação. Agora, esses gradientes dependem das entradas e a centralização dos dados remove possíveis desvios nos gradientes.

Concretamente, uma média diferente de zero é refletida em um autovalor grande, o que significa que os gradientes tendem a ser maiores em uma direção do que outros (viés), retardando o processo de convergência, levando a soluções piores.

jpmuc
fonte
1

Para adicionar o que Alecos disse, o que é muito bom, centralizar seus dados em zero é extremamente importante ao usar estatísticas bayesianas ou regularização, pois, caso contrário, os dados podem ser correlacionados com a interceptação, o que faz com que a regularização não faça o que você normalmente deseja.

Tornar os dados zero médios pode diminuir muitos termos fora da diagonal da matriz de covariância, tornando os dados mais facilmente interpretáveis ​​e os coeficientes mais diretamente significativos, uma vez que cada coeficiente se aplica mais primariamente a esse fator e age menos através da correlação com outros fatores.

Joe
fonte