Costumo ver pessoas que fazem com que uma dimensão / recurso de um conjunto de dados seja de média zero, removendo a média de todos os elementos. Mas eu nunca entendi por que fazer isso? Qual é o efeito de fazer isso como uma etapa de pré-processamento? Melhora o desempenho da classificação? Ajuda a responder algo sobre o conjunto de dados? Ajuda ao fazer uma visualização para entender os dados?
data-mining
dataset
Jack Twain
fonte
fonte
Respostas:
Alguns casos em que "centralizar os dados em sua média" (daqui em diante apenas "des-significado") é útil:
2) Simplifique os cálculos dos momentos mais altos: embora a adição de uma constante a uma variável aleatória não altere sua variância ou sua covariância com outra variável aleatória, ainda assim, se você tiver uma média diferente de zero e precisar escrever os cálculos detalhados, você precisa escrever todos os termos e mostrar que eles são cancelados. Se as variáveis não forem significadas, você salva muitos cálculos inúteis.
3) Variáveis aleatórias centradas em suas médias são o objeto do Teorema do Limite Central
4) Os desvios do "valor médio" são, em muitos casos, a questão do interesse, e se eles tendem a ser "acima ou abaixo da média", em vez dos valores reais das variáveis aleatórias. Os desvios "de tradução" (visual e / ou computacional) abaixo da média como valores negativos e desvios acima da média como valores positivos tornam a mensagem mais clara e mais forte.
Para discussões mais aprofundadas, consulte também
Ao realizar uma regressão múltipla, quando você deve centralizar suas variáveis preditoras e quando deve padronizá-las?
Centralizando dados em regressão múltipla
Se você pesquisar "dados centralizados" no CV, também encontrará outras postagens interessantes.
fonte
Além disso, por razões práticas, é vantajoso centralizar os dados, por exemplo, ao treinar redes neurais.
A idéia é que, para treinar uma rede neural, é necessário resolver um problema de otimização não convexo usando alguma abordagem baseada em gradiente. Os gradientes são calculados por meio de retropropagação. Agora, esses gradientes dependem das entradas e a centralização dos dados remove possíveis desvios nos gradientes.
Concretamente, uma média diferente de zero é refletida em um autovalor grande, o que significa que os gradientes tendem a ser maiores em uma direção do que outros (viés), retardando o processo de convergência, levando a soluções piores.
fonte
Para adicionar o que Alecos disse, o que é muito bom, centralizar seus dados em zero é extremamente importante ao usar estatísticas bayesianas ou regularização, pois, caso contrário, os dados podem ser correlacionados com a interceptação, o que faz com que a regularização não faça o que você normalmente deseja.
Tornar os dados zero médios pode diminuir muitos termos fora da diagonal da matriz de covariância, tornando os dados mais facilmente interpretáveis e os coeficientes mais diretamente significativos, uma vez que cada coeficiente se aplica mais primariamente a esse fator e age menos através da correlação com outros fatores.
fonte