As faixas de confiança e previsão em torno de uma regressão não linear deveriam ser simétricas em torno da linha de regressão? Isso significa que eles não assumem a forma de ampulheta, como no caso das bandas para regressão linear. Por que é que?
Aqui está o modelo em questão:
Aqui está a figura:
e aqui está a equação:
Respostas:
Normalmente, espera-se que as faixas de confiança e previsão se ampliem mais perto do fim - e pelo mesmo motivo que sempre o fazem na regressão comum; Geralmente, a incerteza do parâmetro leva a intervalos maiores perto das extremidades do que no meio
Você pode ver isso simulando com bastante facilidade, simulando dados de um determinado modelo ou simulando a distribuição de amostragem do vetor de parâmetro.
Os cálculos usuais (aproximadamente corretos) feitos para a regressão não linear envolvem a adoção de uma aproximação linear local (isso é dado na resposta de Harvey), mas mesmo sem eles, podemos ter alguma noção do que está acontecendo.
No entanto, fazer os cálculos reais não é trivial e pode ser que os programas tomem um atalho no cálculo que ignore esse efeito. Também é possível que, para alguns dados e alguns modelos, o efeito seja relativamente pequeno e difícil de ver. De fato, com intervalos de previsão, especialmente com grande variação, mas com muitos dados, às vezes pode ser difícil ver a curva na regressão linear comum - eles podem parecer quase retos e é relativamente fácil discernir o desvio da retidão.
Aqui está um exemplo de quão difícil pode ser ver apenas com um intervalo de confiança para a média (os intervalos de previsão podem ser muito mais difíceis de ver porque a variação relativa deles é muito menor). Aqui estão alguns dados e um ajuste de mínimos quadrados não lineares, com um intervalo de confiança para a média da população (neste caso, gerado a partir da distribuição de amostragem, pois conheço o modelo verdadeiro, mas algo muito semelhante pode ser feito por aproximação assintótica ou por bootstrapping):
Os limites roxos parecem quase paralelos às previsões azuis ... mas não são. Aqui está o erro padrão da distribuição amostral dessas previsões médias:
o que claramente não é constante.
Editar:
Essas expressões "sp" que você acabou de postar vêm diretamente do intervalo de previsão para regressão linear !
fonte
Y-hat +/- sp(Y-hat)
A matemática da confiança da computação e as bandas de previsão de curvas ajustadas por regressão não linear são explicadas nesta página Validação cruzada. Isso mostra que as bandas nem sempre são / geralmente simétricas.
E aqui está uma explicação com mais palavras e menos matemática:
Primeiro, vamos definir G | x, que é o gradiente dos parâmetros em um valor específico de X e usando todos os valores de melhor ajuste dos parâmetros. O resultado é um vetor, com um elemento por parâmetro. Para cada parâmetro, é definido como dY / dP, em que Y é o valor Y da curva, dado o valor específico de X e todos os valores de parâmetros de melhor ajuste e P é um dos parâmetros.)
G '| x é esse vetor de gradiente transposto, portanto é uma coluna e não uma linha de valores. Cov é a matriz de covariância (Hessian inverso da última iteração). É uma matriz quadrada com o número de linhas e colunas igual ao número de parâmetros. Cada item da matriz é a covariância entre dois parâmetros. Usamos Cov para nos referir à matriz de covariância normalizada , onde cada valor está entre -1 e 1.
Agora calcule
O resultado é um número único para qualquer valor de X.
As faixas de confiança e previsão são centralizadas na curva de melhor ajuste e se estendem acima e abaixo da curva em uma quantidade igual.
As faixas de confiança se estendem acima e abaixo da curva:
As bandas de previsão estendem uma distância adicional acima e abaixo da curva, igual a:
Em ambas as equações, o valor de c (definido acima) depende do valor de X, portanto, as faixas de confiança e previsão não estão a uma distância constante da curva. O valor de SS é a soma dos quadrados do ajuste e DF é o número de graus de liberdade (número de pontos de dados menos número de parâmetros). CriticalT é uma constante da distribuição t com base no nível de confiança que você deseja (tradicionalmente 95%) e no número de graus de liberdade. Para limites de 95% e um df razoavelmente grande, esse valor é próximo a 1,96. Se DF for pequeno, esse valor será maior.
fonte