Existem muitas referências na literatura estatística a " dados funcionais " (isto é, dados que são curvas) e, paralelamente, a " dados de alta dimensão " (isto é, quando os dados são vetores de alta dimensão). Minha pergunta é sobre a diferença entre os dois tipos de dados.
Ao falar sobre metodologias estatísticas aplicadas que se aplicam no caso 1, pode ser entendida como uma reformulação das metodologias do caso 2 através de uma projeção em um subespaço dimensional finito de um espaço de funções, podendo ser polinomes, splines, wavelet, Fourier, ... e traduzirá o problema funcional em um problema vetorial dimensional dimensional finito (já que na matemática aplicada tudo se torna finito em algum momento).
Minha pergunta é: podemos dizer que qualquer procedimento estatístico que se aplique a dados funcionais também pode ser aplicado (quase diretamente) a dados de alta dimensão e que qualquer procedimento dedicado a dados de alta dimensão pode ser (quase diretamente) aplicado a dados funcionais?
Se a resposta for não, você pode ilustrar?
EDITAR / ATUALIZAR com a ajuda da resposta de Simon Byrne:
- A esparsidade (suposição S-esparsa, bola e bola fraca para ) é usada como uma suposição estrutural na análise estatística de alta dimensão.
- "suavidade" é usada como uma suposição estrutural na análise de dados funcionais.
Por outro lado, a transformação inversa de Fourier e a transformação inversa de wavelet estão transformando a escassez em suavidade, e a suavidade é transformada em escassez pela transformação de wavelet e Fourier. Isso faz com que a diferença crítica mencionada por Simon não seja tão crítica?
fonte
Respostas:
Dados funcionais geralmente envolvem perguntas diferentes. Eu tenho lido Análise Funcional de Dados, Ramsey e Silverman, e eles passam muitas vezes discutindo o registro de curvas, funções de distorção e estimativa de derivadas de curvas. Essas tendem a ser perguntas muito diferentes daquelas feitas por pessoas interessadas em estudar dados de alta dimensão.
fonte
Sim e não. No nível teórico, ambos os casos podem usar técnicas e estruturas semelhantes (um excelente exemplo é a regressão gaussiana do processo).
A diferença crítica são as premissas usadas para evitar o ajuste excessivo (regularização):
No caso funcional, geralmente há alguma suposição de suavidade, ou seja, valores que ocorrem próximos um do outro devem ser semelhantes de alguma maneira sistemática. Isso leva ao uso de técnicas como splines, loess, processos gaussianos etc.
No caso de alta dimensão, geralmente há uma suposição de esparsidade: ou seja, apenas um subconjunto das dimensões terá qualquer sinal. Isso leva a técnicas que visam identificar essas dimensões (Lasso, LARS, priores de laje e espiga, etc.)
ATUALIZAR:
Eu realmente não pensei nos métodos wavelet / Fourier, mas sim, as técnicas de limiarização usadas para esses métodos visam a escassez no espaço projetado. Por outro lado, algumas técnicas de alta dimensão assumem uma projeção em uma variedade de dimensões inferiores (por exemplo, análise de componentes principais), que é um tipo de suposição de suavidade.
fonte