Regressão no disco da unidade a partir de amostras "uniformemente espaçadas"

Preciso resolver um problema complicado de regressão no disco da unidade. A pergunta original atraiu alguns comentários interessantes, mas infelizmente nenhuma resposta. Enquanto isso, aprendi algo mais sobre esse problema, portanto tentarei dividir o problema original em subproblemas e verifico se desta vez tenho mais sorte.

Tenho 40 sensores de temperatura regularmente espaçados em um anel estreito dentro do disco da unidade:

Esses sensores adquirem temperatura no tempo. No entanto, como a variação do tempo é muito menor que a variação do espaço, vamos simplificar o problema ignorando a variabilidade do tempo e supor que cada sensor me dê apenas uma média de tempo. Isso significa que tenho 40 amostras (uma para cada sensor) e não tenho amostras repetidas.

Gostaria de construir uma superfície de regressão partir dos dados do sensor. A regressão tem dois objetivos: $T=f(\rho,\theta)+\epsilon$

Preciso estimar um perfil médio de temperatura radial . Com a regressão linear, eu já estimo uma superfície que é a superfície média da temperatura, portanto, só preciso integrar minha superfície em relação a , certo? Se eu usar polinômios para regressão, essa etapa deve ser um pedaço de bolo. $T_{mean}=g_1(\rho)+\epsilon$ $\theta$
Preciso estimar um perfil de temperatura radial , de modo que, em cada posição radial, . $T_{95}=g_2(\rho)+\epsilon$ $P(T(\rho)<T_{95}(\rho))=.95$

Dados esses dois objetivos, qual técnica devo usar para a regressão no disco da unidade? Obviamente, os Processos Gaussianos são comumente usados para regressão espacial. No entanto, a definição de um bom kernel para o disco da unidade não é trivial, portanto, gostaria de manter as coisas simples e usar polinômios, a menos que você sinta que é uma estratégia perdida. Eu li sobre os polinômios da Zernike . Os polinômios de Zernike parecem ser apropriados para a regressão sobre o disco da unidade, pois são periódicos em . $\theta$

Depois que o modelo é escolhido, preciso escolher um procedimento de estimativa. Como esse é um problema de regressão espacial, erros em locais diferentes devem ser correlacionados. Os Mínimos Quadrados Ordinários assumem erros não correlacionados, portanto, acho que Mínimos Quadrados Generalizados seriam mais apropriados. O GLS parece uma técnica estatística relativamente comum, uma vez que existe uma glsfunção na distribuição R padrão. No entanto, nunca usei o GLS e tenho dúvidas. Por exemplo, como faço para estimar a matriz de covariância? Um exemplo elaborado, mesmo com apenas alguns sensores, seria ótimo.

PS: Eu escolhi usar os polinômios Zernike e o GLS, porque me parece a coisa lógica a fazer aqui. No entanto, não sou especialista e, se você achar que estou indo na direção errada, fique à vontade para usar uma abordagem completamente diferente.

regression spatial circular-statistics DeltaIV
fonte

Na figura, um motor é mostrado como tendo uma simetria radial perfeita. Mas a posição dos eixos está relacionada a alguma característica física de um motor ou é realmente arbitrária? No segundo caso, a variável terá apenas um significado em relação a um mecanismo específico.

θ

$\theta$

Yves

Respostas:

Acho que você está no caminho certo ao pensar em algo como os polinômios de Zernike. Como observado na resposta de jwimberly, estes são um exemplo de um sistema de funções de base ortogonal em um disco. Não estou familiarizado com os polinômios de Zernike, mas muitas outras famílias de funções ortogonais (incluindo funções de Bessel) surgem naturalmente na física matemática clássica como funções próprias para certas equações diferenciais parciais (no momento da redação deste artigo, a animação no topo desse link ainda mostra um exemplo de uma cabeça de tambor vibratória).

Duas perguntas me vêm à mente. Primeiro, se tudo o que você procura é o perfil radial ( média), então de quantas restrições você precisa no padrão espacial? Segundo, que tipos de variabilidade ocorrem nos dados espaço-temporais? $\theta$

Em termos da primeira pergunta, há duas preocupações que vêm à mente. Devido às coordenadas polares, a área de suporte para cada sensor tem uma tendência com . A segunda preocupação seria a possibilidade de criar aliases , essencialmente um desalinhamento de seus sensores em relação à fase do padrão (para usar uma analogia de Fourier / Bessel). Observe que o aliasing provavelmente será a principal incerteza na restrição das temperaturas de pico (por exemplo, ). $r$ $T_{95}$

Em termos dessa segunda pergunta, a variabilidade dos dados pode realmente ajudar com quaisquer problemas de alias, permitindo essencialmente que qualquer desalinhamento seja calculado sobre as diferentes medidas. (Supondo que não haja viés sistemático ... mas isso seria um problema para qualquer método, sem, por exemplo, um modelo físico para fornecer mais informações).

Portanto, uma possibilidade seria definir suas funções ortogonais espaciais puramente nos locais dos sensores. Essas "funções ortogonais empíricas" podem ser calculadas via PCA em sua matriz de dados espaço-temporais. (Possivelmente, você poderia usar um pouco de ponderação para explicar as áreas variáveis de suporte do sensor, mas, dada a grade polar uniforme e o objetivo das médias radiais, isso pode não ser necessário.)

Note-se que se não é quaisquer dados de modelagem física disponíveis para variações "esperado" na temperatura, disponíveis em uma grade computacional spatiotemporal densa, em seguida, o mesmo procedimento PCA poderia ser aplicada para que dados para funções ortogonais derivam. (Isso normalmente seria chamado de " Decomposição Ortogonal Adequada " em engenharia, onde é usado para redução de modelo, por exemplo, um modelo de dinâmica de fluidos computacional caro pode ser destilado para uso em outras atividades de projeto.)

Um comentário final, se você ponderar os dados do sensor por área de suporte (por exemplo, tamanho da célula polar), esse seria um tipo de covariância diagonal, no âmbito do GLS . (Isso se aplicaria mais ao seu problema de previsão, embora o PCA ponderado estivesse intimamente relacionado.)

Eu espero que isso ajude!

Atualização: Seu novo diagrama de distribuição de sensores muda consideravelmente as coisas na minha opinião. Se você deseja estimar as temperaturas no interior do disco, precisará de muito mais informações antes do que simplesmente "conjunto de funções ortogonais no disco da unidade". Há pouca informação nos dados do sensor.

Se você realmente deseja estimar a variação da temperatura espacial sobre o disco, a única maneira razoável que eu posso ver seria tratar o problema como um processo de assimilação de dados . Aqui você precisaria, pelo menos, restringir a forma paramétrica da distribuição espacial com base em algumas considerações baseadas em física (elas podem ser de simulações ou de dados relacionados em sistemas com dinâmica semelhante).

Eu não sei a sua aplicação particular, mas se for algo como isso , então eu imagino que há uma extensa literatura de engenharia que você pode desenhar em cima de escolher restrições prévias apropriadas. (Para esse tipo de conhecimento detalhado do domínio, este provavelmente não é o melhor site para o StackExchange.)

GeoMatt22
fonte

Resposta impressionante! Precisa de algum tempo para digeri-lo. Você faz duas perguntas: não sei se entendi a primeira ("de quantas restrições você precisa no padrão espacial?"). Pensei que usar dados de todos os 40 sensores seria melhor do que apenas calcular a média na direção circunferencial e então apropriado ... você está dizendo que isso não é necessariamente verdade? Para o segundo ("que tipos de variabilidade ocorrem nos dados espaço-temporais"), nos próximos um ou dois dias analisarei o primeiro mecanismo (na verdade, tenho cinco deles! Mas este será o tópico de um pergunta futura ...) ctd ...

DeltaIV 18/09/16

... normalizarei os dados e verei o que posso publicar em um site público. Alguns padrões espaciais e algumas séries temporais ... Eu acho que eles deveriam dar uma idéia sobre o que você está perguntando.

DeltaIV 18/09/16

Para minha primeira pergunta: se seu objetivo final é essencialmente "prever os resultados do sensor para um novo mecanismo" (inferido de sua outra pergunta), você realmente precisa de alguma informação "entre os sensores" ?. Meu comentário sobre aliasing foi um exemplo de por que você iria precisar de tais informações, por exemplo, se não é medido de forma confiável com os sensores.

T_{95}

$T_{95}$

GeoMatt22

Aliás, se esse é um problema de design e se há simulações do tipo CFD associadas, isso é significativamente mais informações do que está implícita na pergunta atual. (Por exemplo, aproximando-se do problema de assimilação de dados pode utilizar diferentes abordagens.)

GeoMatt22

Sua resposta me faz pensar: em vez de regressão, existe algum 2º equivalente de uma transformada de Fourier discreta que poderia ser feita? Por exemplo, pegar a integral dos pontos de dados vezes a n-ésima função de Bessel (modificada adequadamente) e obter uma decomposição ortogonal? As preocupações aqui seriam: 1) encontrar a função discreta apropriada, possivelmente na mesma linha da sua resposta; e 2) se isso seria sensível demais ao pequeno número de pontos de amostragem e se a decomposição se basearia em termos mais complicados de ordem superior .

precisa saber é o seguinte

Os polinômios Zernlike não soar como uma má escolha, uma vez que eles já têm e dependência e ortogonalidade cozido. No entanto, desde que você está estudando temperatura, uma escolha sem dúvida mais apropriado e mais conhecido seriam as funções de Bessel . Eles surgem no estudo do fluxo de calor em objetos cilíndricos / sistemas de coordenadas, e, portanto, há uma chance de que eles sejam fisicamente mais apropriados. A n-ésima função de Bessel daria a dependência radial associada a uma função trigonométrica correspondente para a dependência polar; você pode encontrar os detalhes em muitos livros de física e PDE. $r$ $\theta$

jwimberley
fonte

(+1) A conexão da equação de calor das coordenadas polares é boa. Outro que talvez valha a pena mencionar é que, para os Processos Gaussianos que eu conheço comumente em grades retangulares, a matriz de covariância é circulante e são utilizados praticamente FFTs. Portanto, as funções de Bessel seriam candidatas a uma abordagem semelhante em uma grade polar.

GeoMatt22

Uma sugestão interessante! No entanto, estou medindo a temperatura no fluido operacional, não na parte sólida do motor. Assim, estou interessado no problema de convecção, em oposição ao problema de condução. As funções de Bessel são certamente soluções da equação de condução de calor (Fourier), mas não acho que sejam soluções da equação de convecção de calor também, pois a convecção depende do campo do fluxo de fluido. Enfim, eu poderia pelo menos testá-los contra o Zernike. E o GLS? Você poderia adicionar algo nessa parte da pergunta também?

DeltaIV 18/09/16

@ DeltaIV Não estou muito familiarizado com o GLS, mas uma pergunta - por que você espera que os erros sejam correlacionados em diferentes pontos espaciais? Eu concordo que flutuações reais serão correlacionadas entre pontos, mas eu pensaria que os erros (isto é, incerteza nas leituras do sensor) não seriam correlacionados. Talvez as flutuações de regressão contem como erros? Estou pensando em adicionar algo sobre termos de penalização, no entanto. Qualquer que seja a base usada, você possui apenas um número finito de pontos de amostragem e pode encontrar uma função de Bessel correspondente de ordem muito alta; portanto, os termos de ordem mais baixa devem ser preferidos.

precisa saber é o seguinte

@DeltaIV Em relação às flutuações novamente, o que introduziria correlações entre os pontos espaciais: seu objetivo é obter um mapa de temperatura, não é? Você não quer ver as flutuações que estão ocorrendo? E um modelo estatístico poderia explicar isso, já que as flutuações seriam impulsionadas pela dinâmica dos fluidos e complicadas no espaço e no tempo? (É este relacionado com a parte dependente do tempo de sua análise que você já parou para simplificar?)

jwimberley

chat da galeria criado .

DeltaIV 19/09/16