Forma dos intervalos de confiança e previsão para regressão não linear

13

As faixas de confiança e previsão em torno de uma regressão não linear deveriam ser simétricas em torno da linha de regressão? Isso significa que eles não assumem a forma de ampulheta, como no caso das bandas para regressão linear. Por que é que?

Aqui está o modelo em questão:
Aqui está a figura:

F(x)=(UMA-D1+(xC)B)+D

http://i57.tinypic.com/2q099ok.jpg

e aqui está a equação:

insira a descrição da imagem aqui

Sarja
fonte
Sua pergunta não é clara, porque você passa de perguntar se elas "deveriam ser simétricas" na 1ª frase, para sugerir que elas não estão na frase 2 e perguntar (presumivelmente) por que elas não estão na frase 3. Você pode fazer isso é mais consistente / claro?
gung - Restabelece Monica
OK, deixe-me perguntar desta maneira - por que as faixas de confiança e previsão são simétricas em torno da linha de regressão quando a regressão é não linear, mas assumem a forma de uma ampulheta quando é linear?
Serge
0 00 0
Você está certo. A banda atravessa o território negativo. No entanto, não estou interessado nos valores das próprias bandas, mas nos valores EC50 correspondentes aos limites da banda. Existe uma alternativa para construir as bandas dessa maneira?
6774 Serge
Sim, mas como sugeri, eles podem se complicar. Os mínimos quadrados generalizados e os métodos de séries temporais podem lidar com a correlação serial. As transformações não lineares da variável dependente são uma ferramenta para lidar com erros não aditivos. Uma ferramenta mais sofisticada é um modelo linear generalizado. As escolhas dependem parcialmente da natureza da variável dependente. BTW, embora eu não tenha certeza do que você quer dizer com "valores EC50" (parece que você está modelando relacionamentos dose-resposta), qualquer coisa calculada a partir das bandas ilustradas será suspeita.
whuber

Respostas:

8

Normalmente, espera-se que as faixas de confiança e previsão se ampliem mais perto do fim - e pelo mesmo motivo que sempre o fazem na regressão comum; Geralmente, a incerteza do parâmetro leva a intervalos maiores perto das extremidades do que no meio

Você pode ver isso simulando com bastante facilidade, simulando dados de um determinado modelo ou simulando a distribuição de amostragem do vetor de parâmetro.

Os cálculos usuais (aproximadamente corretos) feitos para a regressão não linear envolvem a adoção de uma aproximação linear local (isso é dado na resposta de Harvey), mas mesmo sem eles, podemos ter alguma noção do que está acontecendo.

No entanto, fazer os cálculos reais não é trivial e pode ser que os programas tomem um atalho no cálculo que ignore esse efeito. Também é possível que, para alguns dados e alguns modelos, o efeito seja relativamente pequeno e difícil de ver. De fato, com intervalos de previsão, especialmente com grande variação, mas com muitos dados, às vezes pode ser difícil ver a curva na regressão linear comum - eles podem parecer quase retos e é relativamente fácil discernir o desvio da retidão.

Aqui está um exemplo de quão difícil pode ser ver apenas com um intervalo de confiança para a média (os intervalos de previsão podem ser muito mais difíceis de ver porque a variação relativa deles é muito menor). Aqui estão alguns dados e um ajuste de mínimos quadrados não lineares, com um intervalo de confiança para a média da população (neste caso, gerado a partir da distribuição de amostragem, pois conheço o modelo verdadeiro, mas algo muito semelhante pode ser feito por aproximação assintótica ou por bootstrapping):

insira a descrição da imagem aqui

Os limites roxos parecem quase paralelos às previsões azuis ... mas não são. Aqui está o erro padrão da distribuição amostral dessas previsões médias:

insira a descrição da imagem aqui

o que claramente não é constante.


Editar:

Essas expressões "sp" que você acabou de postar vêm diretamente do intervalo de previsão para regressão linear !

Glen_b -Reinstate Monica
fonte
você também está dizendo que o aumento no parâmetro incerteza à medida que alguém se afasta do centro deve aumentar a banda nas extremidades, mesmo no caso de regressão não-linear, mas que não é tão óbvio? Ou existe uma razão teórica para que esse alargamento não ocorra no caso de regressão não linear? Minhas bandas certamente parecem muito simétricas.
Serge
1
Esse alargamento ocorreria deve ser típico, mas não acontecerá da mesma maneira com todos os modelos não lineares e não será tão óbvio com todos os modelos, e porque não é tão fácil de fazer, pode não ser calculado dessa maneira por um determinado programa . Eu não sei como as bandas que você está vendo foram calculadas - eu não sou um leitor de mentes e não consigo ver o código de um programa que você nem mencionou o nome.
Glen_b -Reinstala Monica
@ user1505202, essa continua sendo uma pergunta difícil de responder completamente. Você pode indicar qual é o seu modelo (sua forma funcional)? Você pode anexar uma imagem da figura que é desconcertante para você?
gung - Restabelece Monica
1
Obrigado. Eu tenho os números e eles são essencialmente constantes - a diferença entre a linha de regressão e cada limite de previsão varia de 18.21074 no meio a 18.24877 no final. Então, um ligeiro alargamento, mas muito ligeiro. A propósito, @gung, obtive a equação que calcula o intervalo de previsão. É:Y-hat +/- sp(Y-hat)
Serge
1
É sobre o tipo de variação que você pode ver com um intervalo de previsão com amostras grandes. O que é sp?
Glen_b
5

A matemática da confiança da computação e as bandas de previsão de curvas ajustadas por regressão não linear são explicadas nesta página Validação cruzada. Isso mostra que as bandas nem sempre são / geralmente simétricas.

E aqui está uma explicação com mais palavras e menos matemática:

Primeiro, vamos definir G | x, que é o gradiente dos parâmetros em um valor específico de X e usando todos os valores de melhor ajuste dos parâmetros. O resultado é um vetor, com um elemento por parâmetro. Para cada parâmetro, é definido como dY / dP, em que Y é o valor Y da curva, dado o valor específico de X e todos os valores de parâmetros de melhor ajuste e P é um dos parâmetros.)

G '| x é esse vetor de gradiente transposto, portanto é uma coluna e não uma linha de valores. Cov é a matriz de covariância (Hessian inverso da última iteração). É uma matriz quadrada com o número de linhas e colunas igual ao número de parâmetros. Cada item da matriz é a covariância entre dois parâmetros. Usamos Cov para nos referir à matriz de covariância normalizada , onde cada valor está entre -1 e 1.

Agora calcule

c = G '| x * Cov * G | x.

O resultado é um número único para qualquer valor de X.

As faixas de confiança e previsão são centralizadas na curva de melhor ajuste e se estendem acima e abaixo da curva em uma quantidade igual.

As faixas de confiança se estendem acima e abaixo da curva:

= sqrt (c) * sqrt (SS / DF) * CriticalT (% de confiança, DF)

As bandas de previsão estendem uma distância adicional acima e abaixo da curva, igual a:

= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (% de confiança, DF)

Em ambas as equações, o valor de c (definido acima) depende do valor de X, portanto, as faixas de confiança e previsão não estão a uma distância constante da curva. O valor de SS é a soma dos quadrados do ajuste e DF é o número de graus de liberdade (número de pontos de dados menos número de parâmetros). CriticalT é uma constante da distribuição t com base no nível de confiança que você deseja (tradicionalmente 95%) e no número de graus de liberdade. Para limites de 95% e um df razoavelmente grande, esse valor é próximo a 1,96. Se DF for pequeno, esse valor será maior.

Harvey Motulsky
fonte
Obrigado, Harvey. Estou trabalhando para obter o gradiente dos parâmetros para minha função. Você por acaso conhece um exemplo trabalhado, pois também não estou claro como a matriz de covariância é obtida.
7774 Serge
Se você usar a demonstração do GraphPad Prism, poderá ajustar os dados a qualquer modelo que desejar e visualizar a matriz de covariância (um resultado opcional escolhido na guia Diagnóstico) e as faixas de confiança ou previsão (como números e gráfico; escolha também em Guia Diagnóstico). Isso não é muito bom como exemplo, mas pelo menos você pode comparar a matriz de covariância e ver se o problema é antes ou depois ...
Harvey Motulsky
Duas coisas, no entanto. 1. Prism me deu a matriz Cov. No entanto, é apenas um número para todo o conjunto de dados. Não devo obter um valor por valor X? 2. Eu recebo a banda de previsão no gráfico, mas gostaria que a saída contivesse os valores. O prisma não parece fazer isso. Eu sou muito novo no Prism e, portanto, posso não ter olhado em todos os lugares, mas tentei!
Serge
1. A matriz de covariância mostra o grau em que os parâmetros estão interligados. Portanto, existe um valor para cada par de parâmetros que você solicita que a regressão não linear se ajuste. 2. Procure na guia Intervalo para solicitar ao Prism que faça uma tabela das coordenadas XY da curva, com valores mais / menos para as faixas de confiança ou previsão. 3. Para suporte técnico com Prism, envie um email para [email protected] Use este fórum para perguntas estatísticas, não para suporte técnico.
Harvey Motulsky