Por que dividir um conjunto de dados por sigma torna a variação da amostra igual a 1? Assumindo uma média zero por simplicidade.
Qual é a intuição por trás disso?
Dividir pelo intervalo (max-min) faz sentido intuitivo. Mas o desvio padrão não.
standardization
sempre curioso
fonte
fonte
Respostas:
Isso decorre da propriedade da variação. Para uma variável aleatória e uma constante , . Portanto, se você dividir os dados por seu desvio padrão ( ), .X a var(aX)=a2var(x) σ var(X/σ)=var(X)/σ2=σ2/σ2=1
fonte
Padronizar é apenas mudar as unidades para que elas estejam em unidades de "desvio padrão". Após a padronização, um valor de 1,5 significa "1,5 desvio padrão acima de 0". Se o desvio padrão fosse 8, isso seria equivalente a dizer "12 pontos acima de 0".
Um exemplo: ao converter polegadas em pés (nos Estados Unidos), você multiplica seus dados em polegadas por um fator de conversão, , resultante do fato de 1 pé ser igual a 12 polegadas, para que você ' basicamente, basta multiplicar seus pontos de dados por uma versão sofisticada de 1 (ou seja, uma fração com igual numerador e denominador). Por exemplo, para ir de 72 polegadas para pés, você faz .1foot12inches 72inches×1foot12inches=6feet
Ao converter pontuações de unidades brutas em unidades de desvio padrão, você multiplica seus dados em unidades brutas pelo fator de conversão . Portanto, se você tivesse uma pontuação de 100 e o desvio padrão ( ) fosse 20, sua pontuação padronizada seria . A padronização está apenas mudando as unidades.1sdσpoints σ 100points×1sd20points=5sd
A alteração das unidades de um conjunto de dados não afeta a distribuição; basta alterar as unidades da medida de spread que você está usando para que elas correspondam. Portanto, se seus dados originais tiveram um desvio padrão de 20 pontos e você alterou as unidades para que 20 pontos originais sejam iguais a 1 nova unidade padronizada, o novo desvio padrão é 1 unidade (porque 20 unidades originais são iguais a 1 nova unidade).
fonte