Estimando a dimensão de um conjunto de dados

9

Um colega em estatística aplicada me enviou o seguinte:

"Gostaria de saber se você conhece alguma maneira de descobrir a verdadeira dimensão do domínio de uma função. Por exemplo, um círculo é uma função unidimensional em um espaço bidimensional. Se eu não souber desenhar, existe uma estatística que eu posso calcular que me diz que é um objeto unidimensional em um espaço bidimensional? Eu tenho que fazer isso em situações de alta dimensão para que não possa desenhar imagens. Qualquer ajuda será muito apreciada. "

A noção de dimensão aqui é obviamente mal definida. Quero dizer, eu poderia fazer uma curva através de qualquer coleção finita de pontos no espaço dimensional alto e dizer que meus dados são unidimensionais. Mas, dependendo da configuração, pode haver uma maneira mais fácil ou mais eficiente de descrever os dados como um conjunto dimensional mais alto.

Tais questões devem ter sido consideradas na literatura estatística, mas não estou familiarizado com isso. Alguma sugestão ou sugestão? Obrigado!


fonte

Respostas:

7

Vejo

Levina, E. e Bickel, P. (2004) "Estimativa de máxima verossimilhança da dimensão intrínseca". Avanços nos sistemas de processamento de informações neurais 17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

A idéia deles é que, se os dados são amostrados a partir de uma densidade suave em incorporada em com , localmente, o número de pontos de dados em uma pequena bola de raio se comporta aproximadamente como um processo de Poisson. A taxa do processo está relacionada ao volume da bola, que por sua vez está relacionado à dimensão intrínseca.RmRpm<pt

vqv
fonte
1
+1 Boa descoberta! O artigo também apresenta uma breve discussão sobre a abordagem do PCA (assim como alguns outros métodos).
whuber
Muito obrigado, acho que este é o mais próximo do que meu colega estava procurando.
7

Componentes principais A análise dos dados locais é um bom ponto de partida. Temos que tomar alguns cuidados, no entanto, para distinguir a dimensão local (intrínseca) da global (extrínseca). No exemplo de pontos em um círculo, a dimensão local é 1, mas no geral os pontos dentro do círculo estão em um espaço 2D. Para aplicar o PCA a isso, o truque é localizar : selecione um ponto de dados e extraia apenas aqueles que estão próximos. Aplique o PCA a este subconjunto. O número de grandes autovalores sugerirá a dimensão intrínseca. Repetir isso em outros pontos de dados indicará se os dados exibem uma dimensão intrínseca constante. Nesse caso, cada um dos resultados do PCA fornece um atlas parcial do coletor.

whuber
fonte
Muito obrigado pela sua resposta. Vou passar para o meu colega.
3

Não tenho certeza sobre a parte "domínio de uma função", mas a Hausdorff Dimension parece responder a essa pergunta. Tem a propriedade estranha de concordar com exemplos simples ( por exemplo, o círculo possui a Dimensão 1 de Hausdorff), mas de fornecer resultados não integrais para alguns conjuntos ('fractais').

shabbychef
fonte
1
Eu diria até a dimensão da contagem de caixas para uma estatística mais prática.
Raskolnikov
2

Eu recomendo a leitura desta pesquisa: Camastra, F. (2003). Métodos de estimativa de dimensionalidade dos dados: uma pesquisa. Reconhecimento de padrões , 36 (12), 2945-2954 .

Para realizar essa estimativa, achei uma caixa de ferramentas muito boa no Matlab Toolbox for Reduction Dimensionality . Além das técnicas para redução de dimensionalidade, a caixa de ferramentas contém implementações de 6 técnicas para estimativa intrínseca de dimensionalidade

Acaso
fonte