Se tiver um conjunto de dados com observações e variáveis (dimensões), e, geralmente, é pequeno ( ), e podem variar desde pequenos ( ) para talvez muito maior ( )
Lembro-me de aprender que deve ser muito maior que para executar a análise de componentes principais (PCA) ou análise fatorial (FA), mas parece que isso pode não ser assim nos meus dados. Observe que, para meus propósitos, raramente me interesso por quaisquer componentes principais anteriores ao PC2.
Questões:
- Quais são as regras práticas para o tamanho mínimo da amostra quando o PCA é adequado para uso e quando não é?
- É sempre bom usar os primeiros PCs, mesmo que ou ?
- Há alguma referência sobre isso?
Importa se seu objetivo principal é usar o PC1 e possivelmente o PC2:
- simplesmente graficamente, ou
- como variável sintética usada na regressão?
pca
sample-size
factor-analysis
Patrick
fonte
fonte
Respostas:
Você pode realmente medir se o tamanho da amostra é "grande o suficiente". Um sintoma do tamanho pequeno da amostra ser muito pequeno é a instabilidade.
A inicialização ou validação cruzada valida seu PCA: essas técnicas perturbam seu conjunto de dados excluindo / trocando uma pequena fração de sua amostra e construindo "modelos substitutos" para cada um dos conjuntos de dados alterados. Se os modelos substitutos forem semelhantes o suficiente (= estáveis), você estará bem. Você provavelmente precisará levar em consideração que a solução do PCA não é única: os PCs podem inverter (multiplique uma pontuação e o respectivo componente principal por ). Você também pode usar a rotação Procrustes, para obter modelos de PC tão semelhantes quanto possível.- 1
fonte
Para a análise fatorial (não a análise de componentes principais), existe uma literatura bastante questionando algumas das antigas regras práticas sobre o número de observações. As recomendações tradicionais - pelo menos na psicometria - seriam ter pelo menos observações por variável (com x tipicamente entre 5 e 20 ), portanto, em qualquer caso n ≫ p .x x 5 20 n ≫ p
Uma visão geral bastante detalhada com muitas referências pode ser encontrada em http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis
No entanto, a principal mensagem de retirada dos estudos recentes de simulação provavelmente seria que a qualidade dos resultados varia tanto (dependendo das comunidades, do número de fatores ou da razão fatores / variáveis, etc.) que, considerando a A razão de variáveis para observações não é uma boa maneira de decidir sobre o número necessário de observações. Se as condições forem favoráveis, você pode conseguir muito menos observações do que as diretrizes antigas sugeriam, mas mesmo as diretrizes mais conservadoras são otimistas demais em alguns casos. Por exemplo, Preacher e MacCallum (2002) obtiveram bons resultados com amostras extremamente pequenas mas Mundfrom, Shaw & Ke (2005) encontraram alguns casos em que uma amostra de n > 100 pp > n n > 100 p foi necessário. Eles também descobriram que, se o número de fatores subjacentes permanecer o mesmo, mais variáveis (e não menos, conforme implícitas nas diretrizes baseadas na razão observação-variável) podem levar a melhores resultados com pequenas amostras de observações.
Referências relevantes:
fonte
A idéia por trás das desigualdades do MVA é simples: o PCA é equivalente para estimar a matriz de correlação das variáveis. Você está tentando adivinharp p - 12 n p
A equivalência pode ser vista desta maneira: cada etapa do PCA é um problema de otimização. Estamos tentando encontrar qual direção expressa a maior variação. ou seja:
sob as restrições:
Tomar n = p é mais ou menos equivalente para adivinhar um valor com apenas dois dados ... não é confiável.
Não há regras de ouro, lembre-se de que o PCA é mais ou menos a mesma coisa que adivinhar um valor de2 np valores de .
fonte
Espero que isso possa ser útil:
Referência:
de "R in Action", de Robert I. Kabacoff, livro muito informativo com boas recomendações que cobre quase todos os testes estatísticos.
fonte