Normalmente, usamos o PCA como uma técnica de redução de dimensionalidade para dados em que casos são considerados iid
Pergunta: Quais são as nuances típicas na aplicação do PCA para dados dependentes e não-iid? Quais propriedades agradáveis / úteis do PCA mantidas para dados iid estão comprometidas (ou perdidas totalmente)?
Por exemplo, os dados podem ser uma série temporal multivariada, caso em que pode ser esperada autocorrelação ou heterocedasticidade condicional autoregressiva (ARCH).
Várias perguntas relacionadas à aplicação do PCA aos dados de séries temporais foram feitas antes, por exemplo, 1 , 2 , 3 , 4 , mas estou procurando uma resposta mais geral e abrangente (sem a necessidade de expandir muito em cada ponto individual).
Edit: Como observado por @ttnphns, o PCA em si não é uma análise inferencial. No entanto, pode-se estar interessado no desempenho da generalização da APC, ou seja, concentrando-se na contrapartida da população da APC da amostra. Por exemplo, conforme escrito em Nadler (2008) :
Assumindo que os dados fornecidos sejam uma amostra finita e aleatória de uma distribuição (geralmente desconhecida), uma questão teórica e prática interessante é a relação entre os resultados da amostra de PCA calculados a partir de dados finitos e os do modelo populacional subjacente.
Referências:
- Nadler, Boaz. "Resultados aproximados de amostras finitas para análise de componentes principais: uma abordagem de perturbação de matriz." The Annals of Statistics (2008): 2791-2817.
fonte
Respostas:
Presumivelmente, você pode adicionar o componente de tempo como um recurso adicional aos seus pontos de amostra, e agora eles são iid? Basicamente, os pontos de dados originais estão condicionados ao tempo:
Mas, se definirmos , teremos:x′Eu= { xEu, tEu}
... e as amostras de dados agora são mutuamente independentes.
Na prática, ao incluir o tempo como um recurso em cada ponto de dados, o PCA pode ter como resultado que um componente simplesmente aponte no eixo do recurso de tempo. Porém, se algum recurso estiver correlacionado ao recurso de hora, um componente poderá consistir em um ou mais desses recursos, bem como no recurso de hora.
fonte