Um colega em estatística aplicada me enviou o seguinte:
"Gostaria de saber se você conhece alguma maneira de descobrir a verdadeira dimensão do domínio de uma função. Por exemplo, um círculo é uma função unidimensional em um espaço bidimensional. Se eu não souber desenhar, existe uma estatística que eu posso calcular que me diz que é um objeto unidimensional em um espaço bidimensional? Eu tenho que fazer isso em situações de alta dimensão para que não possa desenhar imagens. Qualquer ajuda será muito apreciada. "
A noção de dimensão aqui é obviamente mal definida. Quero dizer, eu poderia fazer uma curva através de qualquer coleção finita de pontos no espaço dimensional alto e dizer que meus dados são unidimensionais. Mas, dependendo da configuração, pode haver uma maneira mais fácil ou mais eficiente de descrever os dados como um conjunto dimensional mais alto.
Tais questões devem ter sido consideradas na literatura estatística, mas não estou familiarizado com isso. Alguma sugestão ou sugestão? Obrigado!
Componentes principais A análise dos dados locais é um bom ponto de partida. Temos que tomar alguns cuidados, no entanto, para distinguir a dimensão local (intrínseca) da global (extrínseca). No exemplo de pontos em um círculo, a dimensão local é 1, mas no geral os pontos dentro do círculo estão em um espaço 2D. Para aplicar o PCA a isso, o truque é localizar : selecione um ponto de dados e extraia apenas aqueles que estão próximos. Aplique o PCA a este subconjunto. O número de grandes autovalores sugerirá a dimensão intrínseca. Repetir isso em outros pontos de dados indicará se os dados exibem uma dimensão intrínseca constante. Nesse caso, cada um dos resultados do PCA fornece um atlas parcial do coletor.
fonte
Não tenho certeza sobre a parte "domínio de uma função", mas a Hausdorff Dimension parece responder a essa pergunta. Tem a propriedade estranha de concordar com exemplos simples ( por exemplo, o círculo possui a Dimensão 1 de Hausdorff), mas de fornecer resultados não integrais para alguns conjuntos ('fractais').
fonte
Eu recomendo a leitura desta pesquisa: Camastra, F. (2003). Métodos de estimativa de dimensionalidade dos dados: uma pesquisa. Reconhecimento de padrões , 36 (12), 2945-2954 .
Para realizar essa estimativa, achei uma caixa de ferramentas muito boa no Matlab Toolbox for Reduction Dimensionality . Além das técnicas para redução de dimensionalidade, a caixa de ferramentas contém implementações de 6 técnicas para estimativa intrínseca de dimensionalidade
fonte