Processos gaussianos com área de amostragem finita

8

Peço desculpas antecipadamente se esta pergunta for mal colocada: sou astrônomo, não estatístico. Minha pergunta tem como objetivo específico me ajudar a descobrir se os processos gaussianos são uma técnica apropriada para o meu problema.

Usando um telescópio e um espectrógrafo alimentado por fibra, meu projeto levou o espectro óptico de uma galáxia em muitos locais. O padrão de amostragem para um único apontador está na primeira imagem e é repetido três vezes no total, com diferentes deslocamentos espaciais, a fim de preencher as lacunas (segunda imagem). Idealmente, eu gostaria de construir estimativas de certas quantidades sobre uma grade que cobre a galáxia.

Padrão de amostragem para um único telescópio apontando Padrão de deslocamento multiponto

Meu método ingênuo seria analisar o espectro de cada fibra separadamente, para que eu tivesse de estimativas pontuais das quantidades de interesse e depois construísse um processo gaussiano para estimar essas quantidades em todos os lugares. Da mesma forma, eu poderia construir um processo gaussiano para os espectros, e depois analisar o GP na minha grade de escolha para encontrar as quantidades em que estou interessado. No entanto, não tenho certeza se essa é uma abordagem válida, já que minhas observações são não discretos, mas sim coincidentes.3Nfibers

Ao contrário, por exemplo, dos cientistas do solo, que podem coletar sujeira de um local muito discreto e depois se afastar 50 metros e repetir, minhas observações se sobrepõem espacialmente, então estou integrando toda a luz que uma galáxia emite. Não é óbvio para mim que eu poderia negligenciar qualquer variação espacial que possa existir dentro de uma determinada medida. Em outras palavras, um processo gaussiano é válido mesmo quando os locais de amostragem individuais não são pequenos? Posso construir em um termo espacial adicional para explicar a "mistura" leve em uma única fibra?


Adendo: Tradicionalmente, os espectros são apenas interpolados, reamostrados em uma grade e depois analisados, o que também me parece extremamente errado - mas se vou chover nos desfiles dos colegas, quero pelo menos apresentar um método alternativo.

DathosPachy
fonte

Respostas:

5

Acho que suas duas perguntas resolvem o problema. Parece que você pode usar GPs para alguma parte do problema, mas pode ser necessário fazer mais. Para explicar os problemas que vejo, primeiro traduzirei minha compreensão do seu problema para uma linguagem mais matemática:

  1. O problema

Você está interessado em alguma quantidade física ("espectros"?) Em que é um ponto em algum domínio do plano (sua foto). é escalar, isto é, um número único para cada ponto do plano. Você não pode observar diretamente, apenas uma média espacial em alguns pontos de uma grade. seja, você observaOs são os vários discos sobrepostos na sua foto. Você não mencionou, mas talvez haja também algum ruído de medição em suas observações, então você precisará adicionar um termo de ruído no RHS.f(x)xffFsk

F(sk)=Dkf(x)dx.
Dkϵ
  1. E os GPs?

É absolutamente OK para caber um GP para suas observações, e você obterá uma aproximação GP válido ou interpolação de . O GP realmente não se importa que o seu seja feito de discos sobrepostos, observará e refletirá a quantidade certa de correlação para valores suficientemente próximos um do outro. O problema é claro que isso produzirá um GP para não um para . E não será uma aproximação (boa / razoável) de menos que seja mais ou menos constante no .FFFfFffDk

  1. Como recuperar ?f

Existem diferentes maneiras para recuperar de . O que é possível ou talvez "melhor" depende de seus requisitos específicos e dos detalhes do problema. Como você conhece explicitamente a função média de tente alguma forma de deconvolução numérica.fFmFF

Uma maneira mais espirituoso GP é fazer com que o pressuposto de que é um GP médio com função de e função de covariância . A teoria matemática diz então que é um GP com função média e covariância .fmKF

mF(s)=Dsm(x)dx
KF(s1,s2)=Ds1Ds2K(x1,x2)dx1dx2

O teorema do representante para a média de um GP informa então que e você pode concluir comparando os coeficientes quemF(s)=kαkKF(sk,s)

m(s)=kαkDkK(x,s)dx.

Você também pode derivar a distribuição preditiva em um ponto , observando que e as observações de tem uma distribuição normal das articulações e pode condicionar nas observações de . Porém, as fórmulas são complicadas, mas são simples (consulte este artigo Equações (8) e (9))sf(s)FF

O problema disso é do lado prático: ou você precisa encontrar o kernel da sua escolha de que provavelmente é difícil, ou você começa com um tal que (i) você pode calcular AND (ii) funciona razoavelmente bem para suas observações E (iii) faz sentido como modelo para seus dados astronômicos.KKFKKFKFK

gg
fonte
Ótima discussão. Em vez disso, poderíamos imaginar um procedimento como: 1) Expanda F nas funções básicas escolhidas, 2) Estime o vetor de parâmetros e construa , 3) Pegue a derivada de para recuperar ? F^F^f^
dv_bn
Sim, mas a etapa 3 funciona apenas em uma dimensão e não em duas, como é o caso aqui.
gg
Mesmo se você usar uma derivada direcional?
dv_bn
Obrigado por esta discussão extremamente completa. Isso me deu muito em que pensar!
DathosPachy
1

Há um tópico em geoestatística chamado Exat Downscaling. O objetivo principal aqui é estimar uma propriedade em uma escala menor que as observações. Além disso, essas observações podem ou não se sobrepor (realmente não importa). Consulte este documento: http://www.ccgalberta.com/ccgresources/report07/2005-101-exact_reproduction.pdf

Neste artigo, eles mostram um método para reduzir a escala das observações usando técnicas geoestatísticas. Eles mostram que, calculando corretamente as covariâncias cruzadas entre diferentes escalas de dados (ponto versus bloco), a estimativa de krigagem ainda é válida; de modo que a média dos valores estimados em escala menor seja igual a dados de entrada maiores. Basicamente, para calcular os valores estimados em qualquer escala, você só precisa calcular a função de covariância entre os dados de entrada, escalas de destino e correlações cruzadas corretamente. No Processo Gaussiano, a suposição é de que a estimativa está sendo feita na mesma escala das observações de entrada.

Portanto, estas são as etapas: 1- Calcule o variograma experimental a partir dos seus dados.

2- Ajuste o modelo do variograma ao seu variograma experimental. Pode ser necessário considerar a anisotropia direcional aqui. Essa é a função de covariância que no GP é calculada pelo método de máxima verossimilhança.

3- Calcule todas as covariâncias e covariâncias cruzadas entre os dados de entrada e a escala de destino. Existem recibos numéricos para esta etapa. A idéia é que, discretizando os blocos em pontos finitos, é possível calcular a covariância média. Os dados de sobreposição devem ser levados em consideração aqui.

4- execute o Kriging e calcule os valores estimados.

GP é um tópico muito relacionado à geoestatística. No entanto, a geoestatística não se limita aos processos gaussianos. Existem muitos outros métodos para estimar ou simular um processo aleatório.

Behrang
fonte
1
Bem vindo ao site. Estamos tentando construir um repositório permanente de informações estatísticas de alta qualidade na forma de perguntas e respostas. Portanto, temos receio de respostas somente para links, devido ao linkrot. Você pode postar uma citação completa e um resumo das informações no link, caso elas desapareçam?
gung - Restabelece Monica