Quando usar o Standard Scaler e quando o Normalizer?

12

Entendo o que o Standard Scalar faz e o que o Normalizer faz, de acordo com a documentação do scikit: Normalizer , Standard Scaler .

Eu sei quando o Scaler padrão é aplicado. Mas em que cenário o Normalizer é aplicado? Existem cenários em que um é preferido em relação ao outro?

python scikit-learn data-cleaning normalization Heisenbug
fonte

Você nem sempre precisa usar : vale a pena acrescentar que os algoritmos classificador / regressor baseados em árvore (RF / XGB / GBT) não precisam de padronização, basta alimentar os dados brutos. (Você ainda pode optar por fazer a padronização de qualquer maneira, por exemplo, para traçar, correlação, medidas de associação)

SMCI

9

Eles são usados para dois propósitos diferentes.

StandardScaleraltera cada coluna de recurso $f_{:,i}$ para

f_{:, i}^{'} = \frac{f_{:, i} - m e a n (f_{:, i})}{s t d (f_{:, i})} .

$f'_{:,i} = \frac{f_{:,i} - mean(f_{:,i})}{std(f_{:,i})}.$

Normalizermuda cada amostra $x_n=(f_{n,1},...,f_{n,d})$ para

x_{n}^{'} = \frac{x_{n}}{s i z e (x_{n})},

$x'_n = \frac{x_n}{size(x_n)},$ Onde

s i z e (x_{n})

$size(x_n)$ para

l1 norma é $\left \| x_n \right \|_1=|f_{n,1}|+...+|f_{n,d}|$ ,
l2 norma é $\left \| x_n \right \|_2=\sqrt{f^{2}_{n,1}+...+f^{2}_{n,d}}$ ,
max norma é $\left \| x_n \right \|_\infty=max\{|f_{n,1}|,...,|f_{n,d}|\}$ .

Para ilustrar o contraste, considere o conjunto de dados $\{1, 2, 3, 4, 5\}$ que é unidimensional (cada ponto de dados possui um recurso).
Após a aplicação StandardScaler, o conjunto de dados se torna $\{-1.41, -0.71, 0. ,0.71, 1.41\}$ .
Depois de aplicar qualquer tipo de Normalizer, o conjunto de dados se torna $\{1., 1., 1., 1., 1.\}$ , já que o único recurso é dividido por ele mesmo. Portanto Normalizer, não tem utilidade para este caso. Também não é útil quando os recursos têm unidades diferentes, por exemplo $(height, age, income)$ .

Como mencionado nesta resposta , Normalizeré útil principalmente para controlar o tamanho de um vetor em um processo iterativo, por exemplo, um vetor de parâmetro durante o treinamento, para evitar instabilidades numéricas devido a valores elevados.

Esmailiano
fonte

2

StandardScaler: Transforma os dados de maneira que tenha média como 0 e desvio padrão como 1. Em resumo, padroniza os dados . A padronização é útil para dados que possuem valores negativos. Ele organiza os dados em uma distribuição normal padrão . É mais útil na classificação do que na regressão . Você pode ler este meu blog .
Normalizer: Espreme os dados entre 0 e 1. Executa a normalização . Devido à diminuição da amplitude e magnitude, os gradientes no processo de treinamento não explodem e você não obtém maiores valores de perda. É mais útil na regressão do que na classificação . Você pode ler este meu blog .

Shubham Panchal
fonte

2

O normalizador que você definiu no seu blog é o scaler MinMax. O link que coloquei para normalização é diferente. Faz a norma L2 de cada linha de dados igual a 1.

Heisenbug

Esta resposta pode ajudá-lo.

Shubham Panchal 21/02/19

7

-1: "[padronização] organiza os dados na distribuição normal". você deve esclarecer o que você quer dizer com isso. Eu li isso como "a padronização transforma dados para ter a distribuição normal", o que não é verdade. Você também deve explicar por que a padronização é mais útil na classificação do que na regressão (e vice-versa para normalização); Duvido dessa afirmação.

Artem Mavrin

Quando usar o Standard Scaler e quando o Normalizer?

Respostas: