Digamos que eu tenha esses dados binados como entrada. O valor médio é fornecido para cada intervalo sucessivo de . Para simplificar, vamos assumir que a densidade de amostragem é uniforme dentro de cada compartimento.
Agora, quero estimar a função subjacente ( ), ou seja, desejo obter estimativas razoáveis de para valores pontuais arbitrários de (por exemplo, = 2,3 ou 2,5 ou o que for). Os requisitos são:
- A função deve preservar a média de cada compartimento, , para não introduzir viés
- A função deve ser contínua (ou seja, sem descontinuidades)
- A função deve ser não negativa. (Valores negativos não são físicos.)
Simplesmente procurar o valor do compartimento para um determinado satisfaria o número 1, mas violará o número 2 (existem descontinuidades em todas as bordas do compartimento).
Por outro lado, atribuir o peso inteiro da bandeja a cada centro da bandeja e, em seguida, interpolar entre esses pontos, satisfaz o número 2, mas viola o número 1 (independentemente da interpolação de spline linear ou de ordem superior). Na ilustração abaixo, a média de 2 < <3 bin não é preservada; é reduzido, pois os dois cantos são cortados para baixo.
Como isso pode ser feito de maneira a satisfazer os dois requisitos?
Além disso, como é chamada essa operação? Isso é interpolação? (Não sabe como marcar esta pergunta.)
fonte
A melhor solução que eu tenho até agora é fazer uma interpolação linear entre os pontos nos centros de posição, como mostra o gráfico na pergunta, depois de ter feito uma otimização numérica de todo o , repetindo até que a condição 1 seja atendida (e com uma penalidade severa por violar # 3). Infelizmente, a otimização numérica é um processo um pouco mais pesado do que eu esperava.yi
Em vez de fazer a otimização numérica, tentei apenas configurar e resolver um conjunto de equações lineares. Isso é realmente simples e rápido, mas não é robusto contra o requisito nº 3: alguns dos podem acabar negativos, o que não faz sentido. Infelizmente, o número 3 é uma coisa não linear e não pode ser incorporada no conjunto de equações lineares, até onde eu sei.yi
fonte
Binning é altamente desencorajado por ineficiência, descontinuidade e arbitrariedade. Mas você assumiu implicitamente que os compartimentos não devem se sobrepor. Fazer as caixas se sobreporem e ter muito mais delas aliviará alguns dos problemas, embora as splines de regressão sejam melhores.
Não use centros de compartimento para representar a distribuição de dentro do compartimento. Use a média dentro de cada compartimento.x x
fonte