No trabalho, estávamos discutindo isso, pois meu chefe nunca ouviu falar em normalização. Em Álgebra Linear, Normalização parece se referir à divisão de um vetor por seu comprimento. E, em estatística, a padronização parece se referir à subtração de uma média e depois dividida por seu DP. Mas eles parecem intercambiáveis com outras possibilidades também.
Ao criar algum tipo de pontuação universal, isso compõe métricas diferentes, que têm diferentes meios e diferentes SDs, você normalizaria, padronizaria ou algo mais? Uma pessoa me disse que é apenas uma questão de pegar cada métrica e dividi-la pelo seu SD, individualmente. Então, somando os dois. E isso resultará em uma pontuação universal que pode ser usada para julgar as duas métricas.
Por exemplo, digamos que você tenha o número de pessoas que pegam o metrô para trabalhar (em Nova York) e o número de pessoas que dirigem para o trabalho (em Nova York).
Car ⟶ y
Se você deseja criar uma pontuação universal para relatar rapidamente as flutuações de tráfego, não pode simplesmente adicionar e média ( y ) porque haverá MUITO mais pessoas que viajam de trem. Há 8 milhões de pessoas vivendo em Nova York, além de turistas. São milhões de pessoas que tomam o trem todos os dias versus centenas de milhares de pessoas em carros. Portanto, eles precisam ser transformados em uma escala semelhante para serem comparados.
Se
e
Você normalizaria & y e somaria? Você padronizaria x & y e somaria? Ou você dividiria cada um pelo respectivo SD e depois somaria? Para chegar a um número que, quando flutua, representa flutuações totais no tráfego.
Qualquer artigo ou capítulos de livros para referência seria muito apreciado. OBRIGADO!
Também aqui está outro exemplo do que estou tentando fazer.
Imagine que você é um reitor da faculdade e está discutindo os requisitos de admissão. Você pode querer estudantes com pelo menos um determinado GPA e uma certa pontuação no teste. Seria bom se ambos estivessem na mesma escala, porque então você poderia adicionar os dois juntos e dizer: "qualquer pessoa com pelo menos 7,0 pode ser admitida". Dessa forma, se um aluno em potencial tiver um GPA 4.0, ele poderá obter uma pontuação baixa no teste 3.0 e ainda assim ser admitido. Inversamente, se alguém tivesse um GPA 3.0, ele ainda poderia ser admitido com uma pontuação no teste 4.0.
Mas não é assim. O ACT está em uma escala de 36 pontos e a maioria dos GPAs está em 4,0 (alguns são 4,3, sim irritantes). Como não posso simplesmente adicionar um ACT e GPA para obter algum tipo de pontuação universal, como posso transformá-los para que possam ser adicionados, criando assim uma pontuação de admissão universal. E então, como reitor, eu poderia aceitar automaticamente qualquer pessoa com uma pontuação acima de um determinado limite. Ou até mesmo aceitar automaticamente todos cuja pontuação está entre os 95% melhores ... esse tipo de coisa.
Isso seria normalização? estandardização? ou apenas dividindo cada um pelo seu SD e depois somando?
Respostas:
A normalização redimensiona os valores em um intervalo de [0,1]. Isso pode ser útil em alguns casos em que todos os parâmetros precisam ter a mesma escala positiva. No entanto, os outliers do conjunto de dados são perdidos.
A padronização redimensiona os dados para ter uma média ( ) de 0 e desvio padrão ( σ ) de 1 (variação unitária).μ σ
Para a maioria dos aplicativos, a padronização é recomendada.
fonte
No mundo dos negócios, "normalização" normalmente significa que o intervalo de valores é "normalizado para ser de 0,0 a 1,0". "Padronização" normalmente significa que o intervalo de valores é "padronizado" para medir quantos desvios padrão o valor está da sua média. No entanto, nem todos concordariam com isso. É melhor explicar suas definições antes de usá-las.
De qualquer forma, sua transformação precisa fornecer algo útil.
No seu exemplo de trem / carro, você ganha alguma coisa ao saber quantos desvios padrão da média deles estão cada valor? Se você plotar essas medidas "padronizadas" umas contra as outras como um gráfico xy, poderá ver uma correlação (veja o primeiro gráfico à direita):
http://en.wikipedia.org/wiki/Correlation_and_dependence
Se sim, isso significa alguma coisa para você?
No que diz respeito ao seu segundo exemplo, se você deseja "igualar" um GPA de uma escala para outra, o que essas escalas têm em comum? Em outras palavras, como você pode transformar esses mínimos em equivalentes e os máximos em equivalentes?
Aqui está um exemplo de "normalização":
Link de normalização
Depois de obter suas pontuações GPA e ACT de forma intercambiável, faz sentido pesar as pontuações ACT e GPA de maneira diferente? Em caso afirmativo, qual ponderação significa algo para você?
Edit 1 (05/03/2011) =========================================== =
Primeiro, gostaria de verificar os links sugeridos pelo whuber acima. O ponto principal é que, em ambos os problemas de duas variáveis, você precisará criar uma "equivalência" de uma variável em relação à outra. E, uma maneira de diferenciar uma variável da outra. Em outras palavras, mesmo que você possa simplificar isso para um relacionamento linear simples, você precisará de "pesos" para diferenciar uma variável da outra.
Aqui está um exemplo de um problema de duas variáveis:
Utilitários de vários atributos
Na última página, se você puder dizer que o tráfego de trens padronizado
U1(x)
versus o tráfego de carros padronizadoU2(y)
é "independente de maneira aditiva", poderá conseguir usar uma equação simples como:Onde k1 = 0,5 significa que você é indiferente ao tráfego padronizado de carros / trens. Um k1 mais alto significaria que o tráfego de trens
U1(x)
é mais importante.No entanto, se essas duas variáveis não forem "aditivamente independentes", será necessário usar uma equação mais complicada. Uma possibilidade é mostrada na página 1:
Em ambos os casos, você terá que criar um utilitário
U(x, y)
que faça sentido.Os mesmos conceitos gerais de ponderação / comparação são válidos para o seu problema GPA / ACT. Mesmo que sejam "normalizados" em vez de "padronizados".
Uma última edição. Eu sei que você não vai gostar disso, mas a definição do termo "independente de forma aditiva" está na página 4 do link a seguir. Procurei uma definição menos nerd, mas não consegui encontrar uma. Você pode procurar algo melhor.
Aditivamente Independente
Citando o link:
Conforme sugerido na parte superior desta resposta, se você traçar o tráfego de trem padronizado versus o tráfego de carros padronizado em um gráfico xy, poderá ver uma correlação. Nesse caso, você está preso à equação de utilidade não linear acima ou algo semelhante.
fonte
A resposta é simples, mas você não vai gostar: depende. Se você valoriza 1 desvio padrão de ambas as pontuações igualmente, a padronização é o caminho a percorrer (observe: na verdade, você está estudando , porque está dividindo por uma estimativa do DP da população).
Caso contrário, é provável que a padronização seja um bom primeiro passo, após o qual você poderá dar mais peso a uma das pontuações multiplicando por um fator bem escolhido.
fonte
Para resolver o problema GPA / ACT ou trem / carro, por que não usar a média geométrica ?
n√ (a1 × a2 × ... × an)
Onde
a*
está o valor da distribuição en
é o índice da distribuição.Essa média geométrica garante que cada valor despeje sua escala, contribui igualmente para o valor médio. Veja mais em Geometric Mean
fonte
No meu campo, ciência de dados, normalização é uma transformação de dados que permite fácil comparação dos dados a jusante. Existem muitos tipos de normalizações. Scaling sendo um deles. Você também pode registrar os dados ou fazer o que quiser. O tipo de normalização usado dependeria do resultado desejado, pois todas as normalizações transformam os dados em outra coisa.
Aqui estão alguns dos exemplos que eu considero normalização. Normalizações de escala normalização Quantile
fonte