Tamanho mínimo da amostra para PCA ou FA quando o objetivo principal é estimar apenas alguns componentes?

27

Se tiver um conjunto de dados com n observações e p variáveis (dimensões), e, geralmente, n é pequeno ( n=12-16 ), e p podem variar desde pequenos ( p=4-10 ) para talvez muito maior ( p=30-50. )

Lembro-me de aprender que n deve ser muito maior que p para executar a análise de componentes principais (PCA) ou análise fatorial (FA), mas parece que isso pode não ser assim nos meus dados. Observe que, para meus propósitos, raramente me interesso por quaisquer componentes principais anteriores ao PC2.

Questões:

  1. Quais são as regras práticas para o tamanho mínimo da amostra quando o PCA é adequado para uso e quando não é?
  2. É sempre bom usar os primeiros PCs, mesmo que n=p ou n<p ?
  3. Há alguma referência sobre isso?
  4. Importa se seu objetivo principal é usar o PC1 e possivelmente o PC2:

    • simplesmente graficamente, ou
    • como variável sintética usada na regressão?
Patrick
fonte
Lembro-me de ler sobre esse tipo de diretrizes com relação à análise fatorial. Você também está interessado nisso ou apenas no PCA? Além disso, a resposta pode depender do tipo de dado com o qual você está lidando. Você tem um campo de aplicação específico em mente?
Gala
1
Obrigado Gael pelos comentários e referências abaixo. Agora estou precisando saber as diferenças entre FA e PCA. :)
Patrick
3
Esta questão foi tratada extensivamente neste site, consulte por exemplo: stats.stackexchange.com/questions/1576/… e stats.stackexchange.com/questions/612/…
Gala

Respostas:

21

Você pode realmente medir se o tamanho da amostra é "grande o suficiente". Um sintoma do tamanho pequeno da amostra ser muito pequeno é a instabilidade.

A inicialização ou validação cruzada valida seu PCA: essas técnicas perturbam seu conjunto de dados excluindo / trocando uma pequena fração de sua amostra e construindo "modelos substitutos" para cada um dos conjuntos de dados alterados. Se os modelos substitutos forem semelhantes o suficiente (= estáveis), você estará bem. Você provavelmente precisará levar em consideração que a solução do PCA não é única: os PCs podem inverter (multiplique uma pontuação e o respectivo componente principal por ). Você também pode usar a rotação Procrustes, para obter modelos de PC tão semelhantes quanto possível.-1

cbeleites suporta Monica
fonte
Obrigado cbeleites. Você acha que o bootstrapping será excessivamente informativo com n tão baixo quanto, digamos, 16? Para entender, eu apenas procurava estabilidade relativa executando muitos PCAs, deixando um site de fora a cada execução.
22412 Patrick
Nesse caso, é certamente possível analisar todos os 16 modelos que foram perturbados pela exclusão de uma amostra (ou mesmo para todos os 120 modelos que deixaram de fora duas amostras). Eu acho que com o pequeno eu provavelmente adotaria uma abordagem tão sistemática do tipo CV. n
cbeleites suporta Monica
23

Para a análise fatorial (não a análise de componentes principais), existe uma literatura bastante questionando algumas das antigas regras práticas sobre o número de observações. As recomendações tradicionais - pelo menos na psicometria - seriam ter pelo menos observações por variável (com x tipicamente entre 5 e 20 ), portanto, em qualquer caso n p .xx520np

Uma visão geral bastante detalhada com muitas referências pode ser encontrada em http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

No entanto, a principal mensagem de retirada dos estudos recentes de simulação provavelmente seria que a qualidade dos resultados varia tanto (dependendo das comunidades, do número de fatores ou da razão fatores / variáveis, etc.) que, considerando a A razão de variáveis ​​para observações não é uma boa maneira de decidir sobre o número necessário de observações. Se as condições forem favoráveis, você pode conseguir muito menos observações do que as diretrizes antigas sugeriam, mas mesmo as diretrizes mais conservadoras são otimistas demais em alguns casos. Por exemplo, Preacher e MacCallum (2002) obtiveram bons resultados com amostras extremamente pequenas mas Mundfrom, Shaw & Ke (2005) encontraram alguns casos em que uma amostra de n > 100 pp>nn>100pfoi necessário. Eles também descobriram que, se o número de fatores subjacentes permanecer o mesmo, mais variáveis ​​(e não menos, conforme implícitas nas diretrizes baseadas na razão observação-variável) podem levar a melhores resultados com pequenas amostras de observações.

Referências relevantes:

  • Mundfrom, DJ, Shaw, DG e Ke, TL (2005). Recomendações de tamanho mínimo da amostra para a realização de análises fatoriais. International Journal of Testing, 5 (2), 159-168.
  • Pregador, KJ e MacCallum, RC (2002). Análise fatorial exploratória na pesquisa genética do comportamento: recuperação de fatores com amostras pequenas. Behavior Genetics, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D. e Wieringa, PA (2009). Análise fatorial exploratória com amostras pequenas. Pesquisa Comportamental Multivariada, 44 (2), 147-181.
Gala
fonte
5
(+1) Aqui está outro artigo, usando simulação e conjuntos de dados reais, que sugere que a regra prática de N / p não funciona muito bem na prática e fornece tamanhos de amostra necessários para obter uma solução estável e precisa no EFA- - controle para vários critérios de qualidade - em função do número de fatores e do número de itens (e opcionalmente a meia largura do alfa de IC de 95% de Cronbach, com base na fórmula de Feldt) em uma escala psiquiátrica: requisitos de tamanho da amostra para o validação interna de escalas psiquiátricas Int J Métodos Psychiatr Res. Dezembro de 2011; 20 (4): 235-49.
chl 17/05
1

A idéia por trás das desigualdades do MVA é simples: o PCA é equivalente para estimar a matriz de correlação das variáveis. Você está tentando adivinharpp-12np

A equivalência pode ser vista desta maneira: cada etapa do PCA é um problema de otimização. Estamos tentando encontrar qual direção expressa a maior variação. ou seja:

mumax(umaEuTΣumaEu)

σ

sob as restrições:

umaEuTumaEu=1

umaEuTumaj=0 0
j<Eu

Σσ

Tomar n = p é mais ou menos equivalente para adivinhar um valor com apenas dois dados ... não é confiável.

Não há regras de ouro, lembre-se de que o PCA é mais ou menos a mesma coisa que adivinhar um valor de 2npvalores de .

lcrmorin
fonte
Você poderia ser mais específico sobre o sentido em que PCA é "equivalente" a estimar uma matriz de correlação? Suponha que eu pare meu PCA após componentes principais. Isso requer a estimativa de k autovalores ekk(p-1)+(p-2)++(p-k)pkp(p-1)/2
whuber
O ponto é que você está calculando (pk) coeficientes de vetores próprios a partir de p (p-1) / 2 coeficientes da matriz. Para uma matriz aleatória, não acho que exista uma maneira de "pular" alguns coeficientes calculando autovetores / autovalores.
Lcrmorin
Certamente existe: os algoritmos usuais encontram os autovalores e os autovetores um de cada vez, a partir do maior autovalor em diante. Além disso, este não é um problema computacional, mas sim de contar o número de valores estimados - a menos que eu interprete mal sua resposta?
whuber
1

Espero que isso possa ser útil:

para FA e PCA

'' Os métodos descritos neste capítulo requerem amostras grandes para derivar soluções estáveis. O que constitui um tamanho de amostra adequado é um pouco complicado. Até recentemente, os analistas usavam regras práticas como “a análise fatorial requer de 5 a 10 vezes mais sujeitos do que variáveis”. Estudos recentes sugerem que o tamanho da amostra exigido depende do número de fatores, do número de variáveis ​​associadas a cada fator e de como bem, o conjunto de fatores explica a variação nas variáveis ​​(Bandalos e Boehm-Kaufman, 2009). Vou sair do ramo e dizer que, se você tiver várias centenas de observações, provavelmente estará seguro ''.

Referência:

Bandalos, DL e MR Boehm-Kaufman. 2009. "Quatro equívocos comuns na análise fatorial exploratória". Em Mitos Estatísticos e Metodológicos e Lendas Urbanas, editado por CE Lance e RJ Vandenberg, 61-87. Nova York: Routledge.

de "R in Action", de Robert I. Kabacoff, livro muito informativo com boas recomendações que cobre quase todos os testes estatísticos.

doutorado
fonte
2
Parece que você está apenas conectando um livro e revisando alguns pontos apresentados anteriormente com base em uma fonte secundária ou terciária. Isso não parece muito útil. Você poderia pelo menos fornecer a referência completa para Bandalos e Boehm-Kaufman, 2009?
Gala