O que significa “normalização” e como verificar se uma amostra ou uma distribuição está normalizada?

18

Eu tenho uma pergunta na qual ele pede para verificar se a distribuição Uniform ( ) está normalizada.Uniform(a,b)

  1. Por um lado, o que significa que qualquer distribuição seja normalizada?
  2. E segundo, como vamos verificar se uma distribuição é normalizada ou não?

Entendo que ao calcular obtemos dados normalizados , mas aqui está pedindo para verificar se uma distribuição está normalizada ou não.

Xmeansd
Ada
fonte
3
O que significa uma normalização de uma distribuição não é tão simples (e geralmente não é a própria distribuição sendo normalizada, mas a variável aleatória). Por exemplo, no caso do uniforme, algumas pessoas podem dizer "linearmente redimensionada de forma a obter um uniforme padrão" (ou seja, para obter e ) ... enquanto outra pessoa pode significar "linearmente redimensionada de forma para obter média 0 e sd 1 ". Para o uniforme, eu normalmente assumiria o primeiro, mas como você vê em uma resposta abaixo, outras pessoas podem entender isso como algo diferente. A melhor opção é pedir que a pessoa que usa o termo seja menos ambígua. b = 1a=0b=1
Glen_b -Reinstate Monica
1
Os termos mais convencionais são padronizados (para atingir uma média de zero e DP de um) e normalizados (para trazer o intervalo para o intervalo ou para redimensionar uma norma de vetor para ). Assim, a re-expressão é uma padronização, enquanto que multiplicar uma densidade por uma constante para criar é uma normalização , porque \ int f (x) dx é a norma L ^ 1 de f . 1 X ( X - média ) / S D[0,1]1X(Xmean)/SDC - C f ( x ) d x = 1fCCf(x)dx=1L 1 ff(x)dxL1f
whuber
Também solicitado em math.SE.
usar o seguinte código
1
Por favor, não faça postagens cruzadas, @Ada. Isso é contra a política da SE. Se você postar um Q em um site e depois achar que deveria ter postado em outro, sinalize seu Q e peça aos moderadores que o migrem para você.
gung - Restabelece Monica

Respostas:

33

Infelizmente, os termos são usados ​​de maneira diferente em campos diferentes, por pessoas diferentes dentro do mesmo campo etc., portanto, não tenho certeza de como isso pode ser respondido aqui. Você deve ter certeza de que conhece a definição que seu instrutor / livro está usando para "normalizado". No entanto, aqui estão algumas definições comuns:

Centralizado: Padronizado: Normalizado: normalização nesse sentido redimensiona seus dados para o intervalo da unidade. A padronização transforma seus dados em escores, como observa @Jeff. E centralizar apenas torna a média dos seus dados igual a .

Xmean
Xmeansd
Xmin(X)max(X)min(X)
z0

Vale a pena reconhecer aqui que todos os três são transformações lineares ; como tal, eles não alteram a forma da sua distribuição . Ou seja, às vezes as pessoas chamam a transformação score de "normalização" e acreditam que, devido à associação dos scores com a distribuição normal, isso fez com que seus dados normalmente fossem distribuídos. Isso não é assim (como @Jeff também observa, e como você poderia dizer, plotando seus dados antes e depois). Se você estiver interessado, poderá alterar a forma dos seus dados usando a família de transformações Box-Cox , por exemplo. zz

Com relação a como você pode verificar essas transformações, isso depende exatamente do que isso significa. Se eles pretendem simplesmente verificar se o código foi executado corretamente, você pode verificar meios, SDs, mínimos e máximos.

- Reinstate Monica
fonte
1
Já vi normalizado usado para sugerir padronizado ou sugerido ajustado em uma distribuição normal padrão, ou seja, , portanto, dos três normalizados é mais provável que seja mal compreendido. O comentário de Ada sobre a aplicação de uma constante de normalização a uma função de probabilidade é outra interpretação possível. Φ1(F(X))
Henry
4

Usando a fórmula que você forneceu em cada pontuação da sua amostra, você está convertendo todas elas em z-scores .

Para verificar se você calculou todos os escores z corretamente, encontre a nova média e o desvio padrão da sua amostra. Se a média for e o desvio padrão for , você fez tudo corretamente.01

O objetivo de fazer isso é colocar tudo em unidades em relação ao desvio padrão da sua amostra. Isso pode ser útil para diversos propósitos, como comparar dois conjuntos de dados diferentes que foram pontuados usando unidades diferentes (centímetros e polegadas, talvez).

É importante não confundir isso com perguntar se uma distribuição é normal , isto é , se ela se aproxima de uma distribuição gaussiana .

Jeff
fonte
portanto, para verificar se a distribuição Uniforme foi ou não normalizada, seria equivalente a dizer E (X) = 0 e Var (X) = 1 onde X ~ Uniforme (a, b)?
2
os dados nem precisam ser de uma distribuição uniforme, podem ser de qualquer distribuição. Além disso, isso só é verdade usando a fórmula que você forneceu; os dados podem ser normalizados de maneiras diferentes do uso de z-scores. por exemplo, pontuações de QI são ditos ser normalizada com uma pontuação de 100 e o desvio padrão de 15.
Jeff
1

Depois de consultar o AT, o que a pergunta estava sendo feita era se

f(x)dx=1

f(x)

Ada
fonte
2
1
É isso que pedimos para verificar. f (x) realmente não precisa ser um pdf e pode ser qualquer função não negativa. Para qualquer função não-negativo, onde o acima não satisfaz, sempre podemos multiplicar por uma constante de normalização
Ada
1
f(x)=ex
É verdade que não existe nenhuma função não negativa em que possamos fazê-la satisfazer a condição acima, mesmo se multiplicarmos por uma constante de normalização.
Ada