Estou seguindo um tutorial aqui: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ para obter uma melhor compreensão do PCA.
O tutorial usa o conjunto de dados Iris e aplica uma transformação de log antes do PCA:
Observe que no código a seguir aplicamos uma transformação log para as variáveis contínuas, como sugerido por [1] e conjunto
center
escale
igual aTRUE
na chamada paraprcomp
padronizar as variáveis antes da aplicação de PCA.
Alguém poderia me explicar em inglês simples porque você primeiro usa a função de log nas quatro primeiras colunas do conjunto de dados Iris. Eu entendo que isso tem algo a ver com tornar os dados relativos, mas estou confuso qual é exatamente a função do log, centro e escala.
A referência [1] acima é para Venables e Ripley, estatísticas modernas aplicadas com S-PLUS , Seção 11.1 que diz brevemente:
Os dados são medições físicas, portanto, uma boa estratégia inicial é trabalhar em escala de log. Isso foi feito o tempo todo.
fonte
Respostas:
O conjunto de dados da íris é um bom exemplo para aprender o PCA. Dito isto, as quatro primeiras colunas que descrevem o comprimento e a largura de sépalas e pétalas não são um exemplo de dados fortemente distorcidos. Portanto, a transformação de log dos dados não altera muito os resultados, pois a rotação resultante dos componentes principais é bastante inalterada pela transformação de log.
Em outras situações, a transformação de log é uma boa escolha.
Executamos o PCA para obter uma visão geral da estrutura geral de um conjunto de dados. Centralizamos, dimensionamos e, às vezes, transformamos em log para filtrar alguns efeitos triviais, que poderiam dominar nosso PCA. O algoritmo de um PCA, por sua vez, encontrará a rotação de cada PC para minimizar os resíduos quadrados, ou seja, a soma das distâncias perpendiculares ao quadrado de qualquer amostra para os PCs. Valores grandes tendem a ter alta alavancagem.
Imagine injetar duas novas amostras nos dados da íris. Uma flor com comprimento de pétala de 430 cm e outra com comprimento de pétala de 0,0043 cm. Ambas as flores são muito anormais, sendo 100 vezes maiores e 1000 vezes menores, respectivamente, que os exemplos médios. A influência da primeira flor é enorme, de modo que os primeiros PCs descrevem principalmente as diferenças entre a flor grande e qualquer outra flor. O agrupamento de espécies não é possível devido a esse erro. Se os dados forem transformados em log, o valor absoluto agora descreverá a variação relativa. Agora a flor pequena é a mais anormal. No entanto, é possível conter todas as amostras em uma imagem e fornecer um agrupamento justo das espécies. Confira este exemplo:
fonte
Bem, a outra resposta dá um exemplo, quando a transformação de log é usada para reduzir a influência de valores extremos ou outliers.
Outro argumento geral ocorre quando você tenta analisar dados que são compostos multiplicativamente em vez de aditivamente - o modelo PCA e FA por suas matemáticas composições aditivas. Multiplicativoas composições ocorrem no caso mais simples em dados físicos, como a superfície e o volume de corpos (funcionalmente), dependentes (por exemplo) dos três parâmetros comprimento, largura e profundidade. Pode-se reproduzir as composições de um exemplo histórico do PCA inicial, acho que é chamado de "problema da bola de Thurstone (ou 'cubos')" ou algo semelhante. Uma vez eu brinquei com os dados desse exemplo e descobri que os dados transformados em log forneceram um modelo muito mais agradável e claro para a composição do volume medido e dos dados de superfície com as três medidas unidimensionais.
Além de exemplos simples, se considerarmos nas interações dos dados de pesquisa social , geralmente os pensamos, assim como medições compostas multiplicativamente de itens mais elementares. Portanto, se examinarmos especificamente as interações, uma transformação de log pode ser uma ferramenta útil e especial para obter um modelo matemático para a descomposição.
fonte