Média zero e variância unitária

10

Estou estudando Data Scaling e, em particular, o método de padronização. Eu entendi a matemática por trás disso, mas não está claro para mim por que é importante dar aos recursos zero média e variação de unidade.

Você pode me explicar ?

Qwerto
fonte
Dê uma olhada aqui .
Media
Isso seria ótimo: medium.com/greyatom/…
Lerner Zhang

Respostas:

8

As questões sobre se e por que é importante dependem do contexto.

  • Para árvores de decisão impulsionadas por gradiente, por exemplo, isso não é importante - esses algoritmos de ML "não se importam" com transformações monótonas nos dados; eles apenas procuram pontos para dividi-lo.

  • Para preditores lineares, por exemplo, o dimensionamento pode melhorar a interpretabilidade dos resultados. Se você quiser pensar na magnitude dos coeficientes como uma indicação de quanto um recurso está afetando o resultado, os recursos precisam ser redimensionados de alguma forma para a mesma área.

  • Para alguns preditores, em particular NNs, o dimensionamento e, em particular, o dimensionamento para um intervalo específico, pode ser importante por razões técnicas. Algumas das camadas usam funções que efetivamente mudam apenas em alguma área (semelhante à família hiperbólica de funções ) e, se os recursos estiverem muito fora do intervalo, pode ocorrer saturação. Se isso acontecer, as derivadas numéricas funcionarão mal e o algoritmo pode não ser capaz de convergir para um bom ponto.

insira a descrição da imagem aqui

Ami Tavory
fonte
2

No caso de média zero, isso ocorre porque alguns modelos de aprendizado de máquina não incluem termo tendencioso em sua representação; portanto, temos que mover os dados pela origem antes de alimentá-los com o algoritmo para compensar a falta de termo tendencioso. No caso de variação de unidade, isso ocorre porque muitos algoritmos de aprendizado de máquina usam algum tipo de distância (por exemplo, euclidiano) para decidir ou prever. Se um recurso em particular tiver valores amplos (ou seja, grande variação), a distância será altamente afetada por esse recurso e o efeito de outros recursos será ignorado. A propósito, alguns algoritmos de otimização (incluindo descida em gradiente) têm melhor desempenho quando os dados são padronizados.

pensador
fonte
2
  • Sempre que começamos com qualquer conjunto de dados no aprendizado de máquina, geralmente assumimos que todos os recursos de dados são igualmente importantes em relação à saída e um recurso não deve dominar sobre outro recurso. Essa é geralmente a razão pela qual escolhemos trazer todos os recursos para a mesma escala.
    No entanto, pode-se levantar uma dúvida de que, mesmo que os recursos não sejam normalizados, os pesos atribuídos a ele durante o aprendizado podem ajudar o conjunto de dados a convergir para a saída esperada durante o treinamento. O problema é que levará muito tempo para treinar e produzir resultados.
  • Escolher o número específico 0 como média e variância 1 é apenas a facilidade de visualizar e manter esses números pequenos ajudaria em um treinamento mais rápido.

Portanto, sugere-se que todos os recursos sejam da mesma escala menores o suficiente para serem treinados com facilidade. O link abaixo também discute conceito semelhante. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Divyanshu Shekhar
fonte