Qual é a diferença entre análise de dados funcionais e análise de dados de alta dimensão

10

Existem muitas referências na literatura estatística a " dados funcionais " (isto é, dados que são curvas) e, paralelamente, a " dados de alta dimensão " (isto é, quando os dados são vetores de alta dimensão). Minha pergunta é sobre a diferença entre os dois tipos de dados.

Ao falar sobre metodologias estatísticas aplicadas que se aplicam no caso 1, pode ser entendida como uma reformulação das metodologias do caso 2 através de uma projeção em um subespaço dimensional finito de um espaço de funções, podendo ser polinomes, splines, wavelet, Fourier, ... e traduzirá o problema funcional em um problema vetorial dimensional dimensional finito (já que na matemática aplicada tudo se torna finito em algum momento).

Minha pergunta é: podemos dizer que qualquer procedimento estatístico que se aplique a dados funcionais também pode ser aplicado (quase diretamente) a dados de alta dimensão e que qualquer procedimento dedicado a dados de alta dimensão pode ser (quase diretamente) aplicado a dados funcionais?

Se a resposta for não, você pode ilustrar?

EDITAR / ATUALIZAR com a ajuda da resposta de Simon Byrne:

  • A esparsidade (suposição S-esparsa, bola e bola fraca para ) é usada como uma suposição estrutural na análise estatística de alta dimensão.lplpp<1
  • "suavidade" é usada como uma suposição estrutural na análise de dados funcionais.

Por outro lado, a transformação inversa de Fourier e a transformação inversa de wavelet estão transformando a escassez em suavidade, e a suavidade é transformada em escassez pela transformação de wavelet e Fourier. Isso faz com que a diferença crítica mencionada por Simon não seja tão crítica?

Robin Girard
fonte
11
A suavização é uma grande parte da análise de dados funcionais e pode ser convertida em um problema de estimativa da média vetorial por projeção em uma base apropriada (por exemplo, Fourier ou wavelet), mas existem outros problemas na análise de dados funcionais, dependendo da estrutura funcional que não traduza tão facilmente. Tomemos, por exemplo, regressão funcional onde você estiver interessado em prever uma resposta funcional das covariáveis.
vqv

Respostas:

12

Dados funcionais geralmente envolvem perguntas diferentes. Eu tenho lido Análise Funcional de Dados, Ramsey e Silverman, e eles passam muitas vezes discutindo o registro de curvas, funções de distorção e estimativa de derivadas de curvas. Essas tendem a ser perguntas muito diferentes daquelas feitas por pessoas interessadas em estudar dados de alta dimensão.

user549
fonte
Concordo plenamente ! as perguntas que são feitas são diferentes. Registro, landmarking, estimativa de derivativos podem surgir da visão funcional. Isso me convence! portanto, o grande problema dos dados funcionais (como está na literatura estatística) não seria que eles são definidos em um conjunto contínuo, mas mais que são indexados em um conjunto ordenado?
Robin girard
Não é apenas o fato de estar definido em um conjunto ordenado. Caso contrário, como você distinguiria a análise de séries temporais da análise de dados funcionais? Eu concordo com @ user549, pois se resume aos tipos de perguntas que são feitas. Eles são específicos para a estrutura dos dados.
vqv
15

Sim e não. No nível teórico, ambos os casos podem usar técnicas e estruturas semelhantes (um excelente exemplo é a regressão gaussiana do processo).

A diferença crítica são as premissas usadas para evitar o ajuste excessivo (regularização):

  • No caso funcional, geralmente há alguma suposição de suavidade, ou seja, valores que ocorrem próximos um do outro devem ser semelhantes de alguma maneira sistemática. Isso leva ao uso de técnicas como splines, loess, processos gaussianos etc.

  • No caso de alta dimensão, geralmente há uma suposição de esparsidade: ou seja, apenas um subconjunto das dimensões terá qualquer sinal. Isso leva a técnicas que visam identificar essas dimensões (Lasso, LARS, priores de laje e espiga, etc.)

ATUALIZAR:

Eu realmente não pensei nos métodos wavelet / Fourier, mas sim, as técnicas de limiarização usadas para esses métodos visam a escassez no espaço projetado. Por outro lado, algumas técnicas de alta dimensão assumem uma projeção em uma variedade de dimensões inferiores (por exemplo, análise de componentes principais), que é um tipo de suposição de suavidade.

Simon Byrne
fonte