Eu estava lendo a seguinte justificativa (das notas do curso cs229) sobre por que dividimos os dados brutos por seu desvio padrão:
mesmo que eu entenda o que a explicação está dizendo, não está claro para mim por que a divisão pelo desvio padrão alcançaria tal objetivo. Diz que todos estão mais na mesma "escala". No entanto, não está totalmente claro por que a divisão pelo desvio padrão alcança isso. Como, o que há de errado em dividir pela variação? Por que não outra quantidade? Como ... a soma dos valores absolutos? ou alguma outra norma ... Existe uma justificativa matemática para escolher a DST?
As alegações contidas neste extrato são uma afirmação teórica que pode ser derivada / comprovada através da matemática (e / ou estatística) ou é mais uma daquelas afirmações que fazemos porque parecem funcionar na "prática"?
Basicamente, pode-se fornecer uma explicação matemática rigorosa de por que essa intuição é verdadeira? Ou se é apenas uma observação empírica, por que achamos que isso geralmente funciona antes de fazer o PCA?
Além disso, no contexto do PCA, esse é o processo de padronização ou normalização?
Alguns outros pensamentos que tive que poderiam "explicar" por que as DSTs:
Como o PCA pode ser derivado da maximização da variação, imaginei que dividir por uma quantidade relacionada, como a DST, poderia ser um dos motivos que dividimos pela DST. Mas então eu considerei que, talvez, se nós definimos talvez uma "variação" de qualquer outra norma, , então nós iria dividir pelo STD dessa norma (tomando a raiz enésima ou algo assim). No entanto, foi apenas um palpite e eu não sou 100% sobre isso, daí a questão. Fiquei me perguntando se alguém sabia alguma coisa relacionada a isso.
Vi que talvez houvesse uma pergunta relacionada:
PCA em correlação ou covariância?
mas parecia falar mais sobre quando usar "correlação" ou "covariância", mas não possuíam justificativas rigorosas, convincentes ou detalhadas, e é nisso que estou interessado principalmente.
Mesmo para:
Por que precisamos normalizar os dados antes da análise
relacionados:
fonte
Respostas:
Isso está em resposta parcial a "não está claro para mim por que a divisão pelo desvio padrão alcançaria esse objetivo". Em particular, por que ele coloca os dados transformados (padronizados) na "mesma escala". A pergunta sugere questões mais profundas (o que mais pode ter "funcionado", que está vinculado ao que "funcionou" pode até significar matematicamente)? - isto é, alcança as alegações feitas no texto.
A entrada na linha coluna de uma matriz de covariância é a covariância entre as variáveis e . Observe que, na diagonal, linha e coluna , isso se torna a covariância entre a variável e ela mesma - que é apenas a variação da variável .j i t h j t h i i i t h i t hEu j Eut h jt h Eu Eu Eut h Eut h
Vamos chamar o variável eo variável ; Suponho que estes já estejam centralizados para que tenham média zero. Lembre-se de que X i j t h X j C O v ( X i , X j ) = σ X iEut h XEu jt h Xj
Podemos padronizar as variáveis para que elas tenham uma variação, simplesmente dividindo por seus desvios padrão. Ao padronizar, geralmente subtraímos a média primeiro, mas eu já presumi que elas estão centralizadas para que possamos pular essa etapa. Deixe e para ver por que a variação é uma, observe queZEu= XEuσXEu
Da mesma forma para . Se pegarmos a entrada na linha coluna da matriz de covariância para as variáveis padronizadas, observe que, uma vez que elas são padronizadas:Zj Eu j
Além disso, quando redimensionamos as variáveis dessa maneira, a adição (equivalentemente: subtração) não altera a correlação, enquanto a multiplicação (equivalentemente: divisão) simplesmente reverte o sinal da correlação se o fator (divisor) for negativo. Em outras palavras, a correlação é inalterada pelas traduções ou dimensionamento, mas é revertida pela reflexão. ( Aqui está uma derivação dessas propriedades de correlação , como parte de uma resposta não relacionada de outra forma.) Como dividimos por desvios padrão, que são positivos, vemos que deve ser igual a ou seja, a correlação entre os dados originais.Cou r ( ZEu, Zj) CO R ( XEu, Xj)
Ao longo da diagonal da nova matriz de covariância, observe que temos para que a diagonal inteira seja preenchida com uma, como seria de esperar. É nesse sentido que os dados estão agora "na mesma escala" - suas distribuições marginais devem parecer muito semelhantes, pelo menos se elas fossem normalmente distribuídas normalmente para começar, com zero médio e com variação (e desvio padrão) um. Não é mais o caso de a variabilidade de uma variável inundar as outras. Você poderia ter dividido por uma medida diferente de propagação, é claro. A variação teria sido uma escolha particularmente ruim devido à inconsistência dimensional (pense no que teria acontecido se você tivesse alterado as unidades em que uma de suas variáveis estava, por exemplo, de metros para quilômetros).Co v ( ZEu, ZEu) =Va r ( ZEu) = 1 um múltiplo apropriado do MAD, se você estiver tentando usá-lo como uma espécie de estimador robusto do desvio padrão) pode ter sido mais apropriado. Mas ainda não transformará essa diagonal em uma diagonal de uns.
O resultado é que um método que funciona na matriz de covariância de dados padronizados está essencialmente usando a matriz de correlação dos dados originais. Para qual você prefere usar no PCA, consulte PCA sobre correlação ou covariância?
fonte
como o @Silverfish já apontou em um comentário, o desvio padrão tem a mesma unidade que as medições. Assim, ao dividir pelo desvio padrão em oposição à variância, você acaba com um número simples que indica onde o seu caso é relativo à média e se espalha conforme medido pela média e pelo desvio padrão. Isso está muito próximo da idéia dos valores e da distribuição normal padrão : se os dados são normalmente distribuídos, a padronização os transformará em uma distribuição normal padrão.z
Portanto, a padronização (centralização média + escala por desvio padrão) faz sentido se você considerar a distribuição normal padrão sensata para seus dados.
Outras quantidades são usadas para dimensionar os dados, mas o procedimento é chamado de padronização somente se usar centralização e divisão médias por desvio padrão. Escala é o termo genérico.
Por exemplo, trabalho com dados espectroscópicos e sei que meu detector tem uma sensibilidade dependente do comprimento de onda e um viés (eletrônico). Assim, calibro subtraindo o sinal de deslocamento (em branco) e multiplicando (dividindo) por um fator de calibração.
Além disso, eu posso estar centralizado não na média, mas em algum outro valor de linha de base, como a média de um grupo de controle em vez da média geral. (Pessoalmente, quase nunca padronizo, pois minhas variáveis já têm a mesma unidade física e estão na mesma ordem de magnitude)
Veja também: As variáveis geralmente são ajustadas (por exemplo, padronizadas) antes de criar um modelo - quando é uma boa ideia e quando é ruim?
fonte
Este link responde à sua pergunta claramente, eu acho: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html
Cito um pequeno pedaço:
fonte