Qual é o raciocínio por trás da padronização (dividindo pelo desvio padrão)?

Por que dividir um conjunto de dados por sigma torna a variação da amostra igual a 1? Assumindo uma média zero por simplicidade.

Qual é a intuição por trás disso?

Dividir pelo intervalo (max-min) faz sentido intuitivo. Mas o desvio padrão não.

standardization sempre curioso
fonte

A suposição média zero não é necessária. Você pode fazer isso como três instruções separadas: dividir por SD fornece um SD de 1; a variância é o quadrado do DP; ea praça de 1: 1

Nick Cox

Quando as pessoas dizem intuitivo, eu traduzo isso como "familiar para mim", e na maioria das vezes se encaixa. Razões para não dividir pela faixa são práticas e não teóricas. O intervalo pode ser altamente lábil. Além disso, muitas vezes o intervalo de todos os valores é enormemente maior que o da maioria dos valores, portanto os resultados não seriam muito úteis. Renda ilustra ambos os pontos: a máxima observada pode variar caprichosamente e valores divididos pelo intervalo seria frequentemente concentrados perto 0.

Nick Cox

Respostas:

Isso decorre da propriedade da variação. Para uma variável aleatória e uma constante , . Portanto, se você dividir os dados por seu desvio padrão ( ), . $X$ $a$ $\mathrm{var}(aX)=a^2\mathrm{var}(x)$ $\sigma$ $\mathrm{var}(X/\sigma)=\mathrm{var}(X)/\sigma^2=\sigma^2/\sigma^2=1$

Chao Song
fonte

isso ajuda, obrigado. Você tem uma abordagem intuitiva?

alwayscurious 18/03/19

Padronizar é apenas mudar as unidades para que elas estejam em unidades de "desvio padrão". Após a padronização, um valor de 1,5 significa "1,5 desvio padrão acima de 0". Se o desvio padrão fosse 8, isso seria equivalente a dizer "12 pontos acima de 0".

Um exemplo: ao converter polegadas em pés (nos Estados Unidos), você multiplica seus dados em polegadas por um fator de conversão, , resultante do fato de 1 pé ser igual a 12 polegadas, para que você ' basicamente, basta multiplicar seus pontos de dados por uma versão sofisticada de 1 (ou seja, uma fração com igual numerador e denominador). Por exemplo, para ir de 72 polegadas para pés, você faz . $\frac{1 foot}{12 inches}$ $72 inches \times \frac{1 foot}{12 inches}=6feet$

Ao converter pontuações de unidades brutas em unidades de desvio padrão, você multiplica seus dados em unidades brutas pelo fator de conversão . Portanto, se você tivesse uma pontuação de 100 e o desvio padrão ( ) fosse 20, sua pontuação padronizada seria . A padronização está apenas mudando as unidades. $\frac{1sd}{\sigma points}$ $\sigma$ $100 points \times \frac{1 sd}{20 points}=5sd$

A alteração das unidades de um conjunto de dados não afeta a distribuição; basta alterar as unidades da medida de spread que você está usando para que elas correspondam. Portanto, se seus dados originais tiveram um desvio padrão de 20 pontos e você alterou as unidades para que 20 pontos originais sejam iguais a 1 nova unidade padronizada, o novo desvio padrão é 1 unidade (porque 20 unidades originais são iguais a 1 nova unidade).

Noé
fonte

Algumas das suas respostas precisam de uma suposição extra de que você subtraiu a média, mas não menciona isso. A questão do encadeamento também é ambígua aqui, pois nas estatísticas subtrair a média é o padrão, mas ele pergunta apenas sobre a divisão pelo SD.

Nick Cox

Não acho que minha resposta exija essa suposição se estivermos definindo a padronização como apenas dividindo pelo SD (o que o OP faz). Estou apenas falando de uma mudança de unidades, não com referência ao centro dos dados. Por exemplo, para uma escala com média de 50 e DP de 10, estou dizendo que uma pontuação de 20 teria uma pontuação padronizada de 2, e não de -3. Subtrair a média (centralização) é uma questão separada.

Noah

Ponto justo. Eu não acho que definir padronização como meramente dividindo pelo SD seja padrão, por assim dizer, mas conceder à sua definição esse valor / SD , digamos, todos os pontos de dados positivos serão acima de 0 no padrão escala e apenas os pontos negativos são inferiores a 0 na escala . Se isso é tão útil, uma padronização quanto (valor média) / DP é questionável.

=: z

$=: z$

z

$z$

z

$z$

-

$-$

Nick Cox

O OP menciona na questão a suposição de que a média é zero

Soroush