Bons exemplos de PCA para o ensino

10

Estou ensinando álgebra linear a uma classe de engenheiros, cientistas sociais e programadores de computador. Acabamos de decompor o valor singular e temos um dia extra, então pensei em falar sobre a relação entre a decomposição do valor singular e a análise de componentes principais. Tenho a parte teórica da palestra escrita muito bem, mas estou com dificuldade para encontrar bons exemplos para usar. Aqui estão as restrições:

  • Eu quero mostrar fotos. Idealmente, os gráficos devem funcionar bem sozinhos: os eixos e os pontos de dados no gráfico de dispersão devem ser rotulados. As palavras em inglês são melhores que os nomes de espécies latinas.

  • A questão que está sendo estudada deve ser interessante. A morfologia dos peixes nigerianos, embora importante, não é uma boa maneira de atrair a atenção de uma classe.

  • Em contraste com o ponto anterior: Nada sobre diferenças raciais humanas; nada em testes de inteligência. Isso levaria a uma discussão animada que nada teria a ver com as técnicas matemáticas.

  • O método de análise matemática deve ser basicamente PCA puro. O projeto DW-NOMINATE, embora incrível, usa o PCA como ponto de partida, seguido por um algoritmo de escalada em montanhas muito mais complicado.

Eu acho que isso seria fácil. Posso facilmente pensar em uma dúzia de projetos divertidos de análise que eu poderia fazer se tivesse tempo para reunir os dados: faça as pesquisas da Pew Research e veja se o PCA recupera o eixo da política social / política fiscal amado pelos libertários. Faça uma dúzia de medições de características físicas típicas de raças de cães e veja se o PCA pode encontrar o cluster "cão pastor". Etcetera, etcetera ... Estou procurando alguém que já tenha feito o trabalho para que eu possa exibi-lo.

Receio que a linha do tempo aqui seja bastante estreita: eu dou uma palestra amanhã à tarde (segunda-feira). Passei a maior parte do fim de semana pesquisando estudos sobre PCA em diferentes campos interessantes e descobrindo repetidamente que eles não são bons.

David E Speyer
fonte
1
A morfologia dos peixes nigerianos seria suficiente para chamar minha atenção (não sou biólogo remotamente). Não sei se sou incomum ou se você subestima a capacidade das pessoas de se interessarem pelas coisas. Talvez seja um pouco de cada um.
Glen_b -Reinstala Monica
1
@Glen_b Aqui você vai scielo.cl/pdf/ijmorphol/v29n4/art60.pdf !
David E Speyer

Respostas:

4

Existem alguns guias passo a passo nas anotações de Shalizi aqui: http://www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch18.pdf , um sendo o conjunto de dados de carros de R e outro sendo artigos de arte e música do New York Times. (Inferir o tópico de um artigo das palavras contidas nele é uma área de pesquisa muito ativa.) Se você não sabe / não quer aprender R, ainda pode usar as anotações e gráficos.

Edit: esqueceu de dizer que também existem vários bons exemplos em um livro de Everitt e Hothorn, disponível no SpringerLink. Pelo que me lembro, um conjunto de dados são caças a jato e também há cerâmica romana.

Solha
fonte
2

Sei que é tarde demais para sua palestra, mas aqui está um exemplo usando dados de decatlo olímpico que achei muito úteis ao aprender PCA. Alguns artigos escritos em R: http://factominer.free.fr/classical-methods/principal-components-analysis.html http://www.math.vu.nl/sto/onderwijs/multivar/ College2.pdf

jac
fonte
Como nenhum dos links acima trabalhar por mais tempo, aqui é um substituto próximo: statweb.stanford.edu/~jtaylo/courses/stats202/olympic.html
MERose