Interpolar dados binados de forma que a média da bandeja seja preservada

8

Digamos que eu tenha esses dados binados como entrada. O valor médio é fornecido para cada intervalo sucessivo de . Para simplificar, vamos assumir que a densidade de amostragem é uniforme dentro de cada compartimento.y¯iΔxi

Agora, quero estimar a função subjacente ( ), ou seja, desejo obter estimativas razoáveis ​​de para valores pontuais arbitrários de (por exemplo, = 2,3 ou 2,5 ou o que for). Os requisitos são:yxyxx

  1. A função deve preservar a média de cada compartimento, , para não introduzir viésy(x)¯i=y¯i
  2. A função deve ser contínua (ou seja, sem descontinuidades)
  3. A função deve ser não negativa. (Valores negativos não são físicos.)

Simplesmente procurar o valor do compartimento para um determinado satisfaria o número 1, mas violará o número 2 (existem descontinuidades em todas as bordas do compartimento).x

Por outro lado, atribuir o peso inteiro da bandeja a cada centro da bandeja e, em seguida, interpolar entre esses pontos, satisfaz o número 2, mas viola o número 1 (independentemente da interpolação de spline linear ou de ordem superior). Na ilustração abaixo, a média de 2 < <3 bin não é preservada; é reduzido, pois os dois cantos são cortados para baixo.x

Como isso pode ser feito de maneira a satisfazer os dois requisitos?

Além disso, como é chamada essa operação? Isso é interpolação? (Não sabe como marcar esta pergunta.)

insira a descrição da imagem aqui

Jean-François Corbett
fonte

Respostas:

2

Aqui está um artigo que descreve um método iterativo que faz o que você está perguntando:

Algoritmo de preservação de média para interpolar suavemente dados médios

MD Rymes, DR Myers, Algoritmo de preservação de média para interpolar suavemente dados médios, Energia Solar, Volume 71, Edição 4, 2001, Páginas 225-231, ISSN 0038-092X, https://doi.org/10.1016/S0038-092X 01) 00052-4 . ( http://www.sciencedirect.com/science/article/pii/S0038092X01000524 )

Resumo: Os valores médios horários ou médios mensais da radiação solar medida são veículos típicos para radiação solar resumida e dados meteorológicos. Freqüentemente, os projetistas, pesquisadores e engenheiros de sistemas de energia renovável baseados em energia solar preferem trabalhar com dados resolvidos com mais tempo, como perfis diurnos detalhados ou valores médios diários. O objetivo deste artigo é apresentar um método simples para interpolar suavemente dados médios (resolução grosseira) em dados com uma resolução mais fina, preservando a média determinística dos dados. A técnica preserva a relação adequada dos componentes entre radiação solar direta, difusa e global (quando estão disponíveis valores para pelo menos dois dos componentes), bem como a média determinística dos dados grosseiramente resolvidos.

adr
fonte
Isso soa como uma solução. Pena que está atrás de um paywall.
Jean-François Corbett
11
Você encontrará uma cópia para download no seu mecanismo de pesquisa favorito; Eu entendi ontem.
adr
Existe uma implementação do algoritmo para R?
RogerioJB
0

A melhor solução que eu tenho até agora é fazer uma interpolação linear entre os pontos nos centros de posição, como mostra o gráfico na pergunta, depois de ter feito uma otimização numérica de todo o , repetindo até que a condição 1 seja atendida (e com uma penalidade severa por violar # 3). Infelizmente, a otimização numérica é um processo um pouco mais pesado do que eu esperava.yi

Em vez de fazer a otimização numérica, tentei apenas configurar e resolver um conjunto de equações lineares. Isso é realmente simples e rápido, mas não é robusto contra o requisito nº 3: alguns dos podem acabar negativos, o que não faz sentido. Infelizmente, o número 3 é uma coisa não linear e não pode ser incorporada no conjunto de equações lineares, até onde eu sei.yi

Jean-François Corbett
fonte
-2

Binning é altamente desencorajado por ineficiência, descontinuidade e arbitrariedade. Mas você assumiu implicitamente que os compartimentos não devem se sobrepor. Fazer as caixas se sobreporem e ter muito mais delas aliviará alguns dos problemas, embora as splines de regressão sejam melhores.

Não use centros de compartimento para representar a distribuição de dentro do compartimento. Use a média dentro de cada compartimento.xx

Frank Harrell
fonte
3
Não estou advogando a favor ou contra o uso de caixas, nem a favor / contra a sobreposição delas. Estou dizendo, esses são os dados com os quais tenho que trabalhar. É a minha opinião. Infelizmente, não tenho nenhuma fonte de informação de nível superior. Além disso, considerando a suposição simplificadora declarada de que as amostras são distribuídas uniformemente nos compartimentos, a média x será a mesma do centro do compartimento.
Jean-François Corbett