Qual é a diferença entre 'Normalização' e 'Escalonamento' de dados? Até agora, pensei que os dois termos se referissem ao mesmo processo, mas agora percebo que há algo mais que não sei / entendo. Além disso, se houver uma diferença entre Normalização e Escalonamento, quando devemos usar a Normalização, mas não o Escalonamento e vice-versa?
Por favor, elabore com algum exemplo.
Respostas:
Não conheço uma definição "oficial" e, mesmo que exista, você não deve confiar nela, pois a verá sendo usada inconsistentemente na prática.
Dito isto, escalar em estatística geralmente significa uma transformação linear da forma .f(x)=ax+b
Normalizar pode significar aplicar uma transformação para que os dados transformados sejam distribuídos normalmente, mas também pode significar simplesmente colocar variáveis diferentes em uma escala comum. A padronização, que significa subtrair a média e dividir pelo desvio padrão, é um exemplo do uso posterior. Como você pode ver, também é um exemplo de dimensionamento. Um exemplo para o primeiro seria usar o log para dados distribuídos normais do log.
Mas o que você deve tirar é que, ao lê-lo, procure uma descrição mais precisa do que o autor fez. Às vezes você pode obtê-lo do contexto.
fonte
Escalar é uma escolha pessoal para fazer com que os números pareçam corretos, por exemplo, entre zero e um, ou um e cem. Por exemplo, converter dados fornecidos em milímetros em metros porque é mais conveniente ou imperial em métrica.
Embora a normalização seja sobre o dimensionamento para um 'padrão' externo - a norma local - como remover o valor médio e dividir pelo desvio padrão da amostra, por exemplo, para que seus dados classificados possam ser comparados com um normal cumulativo ou um Poisson cumulativo, ou tanto faz.
Portanto, se um palestrante ou gerente deseja que os dados sejam "normalizados", significa "redimensioná-lo do meu jeito " ;-)
fonte
Não sei se você quer dizer exatamente isso, mas vejo muitas pessoas se referindo à normalização, que significa padronização de dados. A padronização está transformando seus dados para que eles tenham média 0 e desvio padrão 1:
Também vejo pessoas usando o termo Normalização para escalonamento de dados, como transformar seus dados em um intervalo de 0 a 1:
Pode ser confuso!
Ambas as técnicas têm seus prós e contras. Ao dimensionar um conjunto de dados com muitos discrepantes, seus dados não discrepantes podem terminar em um intervalo muito pequeno. Portanto, se seu conjunto de dados tiver muitos discrepantes, convém padronizá-lo. No entanto, quando você fizer isso, você terminará com dados negativos (às vezes você não quer isso) e dados ilimitados (você também pode não querer isso).
fonte
Centrar significa subtrair a média da variável aleatória das variáveis. Ou seja x -xi
Escalar significa dividir a variável pelo seu desvio padrão. Ou seja, xi / s
A combinação dos dois é chamada normalização ou standization. Ou seja, x-xi / s
fonte