Qual é a distribuição do erro em torno dos dados de crescimento logístico?

10

Em ecologia, frequentemente usamos a equação de crescimento logístico:

Nt=KN0ertK+N0ert1

ou

Nt=KN0N0+(KN0)ert

onde é a capacidade de carga (densidade máxima atingida), é a densidade inicial, é a taxa de crescimento, é o tempo desde o início.N 0 r tKN0rt

O valor de possui um limite superior suave e um limite inferior , com um limite inferior forte em . ( K ) ( N 0 ) 0Nt(K)(N0)0

Além disso, no meu contexto específico, as medições de são feitas usando densidade óptica ou fluorescência, ambas com máximos teóricos e, portanto, um forte limite superior.Nt

O erro em torno de é, portanto, provavelmente melhor descrito por uma distribuição limitada.Nt

Em valores pequenos de , a distribuição provavelmente tem uma forte inclinação positiva, enquanto que em valores de aproximando de K, a distribuição provavelmente tem uma forte inclinação negativa. A distribuição provavelmente tem um parâmetro de forma que pode ser vinculado a .N t N tNtNtNt

A variação também pode aumentar com .Nt

Aqui está um exemplo gráfico

insira a descrição da imagem aqui

com

K<-0.8
r<-1
N0<-0.01
t<-1:10
max<-1

que pode ser produzido em r com

library(devtools)
source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R")
  • Qual seria a distribuição teórica de erros em torno de (considerando o modelo e as informações empíricas fornecidas)?Nt

  • Como os parâmetros desta distribuição se relacionam com o valor de ou tempo (se usando parâmetros, o modo não pode ser diretamente associado a por exemplo, logis normal)?N tNtNt

  • Essa distribuição possui uma função de densidade implementada em ?R

Direções exploradas até agora:

  • Assumindo normalidade em torno de (leva a de ) KNtK
  • Distribuição normal de Logit em torno de , mas dificuldade em ajustar os parâmetros de forma alfa e betaNt/max
  • Distribuição normal em torno da lógica deNt/max
Etienne Low-Décarie
fonte
11
Ao focar na distribuição do erro, essa pergunta reflete um pensamento sofisticado sobre um modelo, mas observe que a distribuição de erros para um formulário funcional não tem necessariamente nenhuma relação com o próprio formulário. Os ingredientes de uma resposta válida são encontrados em informações sobre como o crescimento ocorre, sobre variações naturais em e longo do tempo (que serão necessariamente absorvidas no erro), sobre possíveis erros de especificação do modelo e como ( e ) são medidos. r N t tKrNtt
whuber
@whuber, tentei abordar alguns de seus comentários em uma edição recente.
Etienne Low-Décarie
11
5 pense que, se você pode caracterizar as propriedades da distribuição de ruído da maneira que possui, poderá escolher um formulário paramétrico com essas propriedades. Eu acho que para resumir a família deve 1. ser definida em um intervalo finito, 2. permitir inclinação esquerda, inclinação direita e simetria. e 3. tem uma variação que aumenta à medida que Nt aumenta. A distribuição beta se encaixa na conta de 1 e 2. O intervalo fixo é [0, 1]. Então, para permitir que a variância aumente, podemos adicionar um parâmetro c que espalha a distribuição para o intervalo [0, c].
Michael R. Chernick

Respostas:

3

Como apontou Michael Chernick, a distribuição beta em escala faz mais sentido para isso. No entanto, para todos os fins práticos, e esperando que você NUNCASe o modelo estiver perfeitamente correto, seria melhor modelar a média por meio de regressão não linear de acordo com sua equação de crescimento logístico e encerrar isso com erros padrão que são robustos à heterocedasticidade. Colocar isso no contexto de máxima probabilidade criará uma falsa sensação de grande precisão. Se a teoria ecológica produzir uma distribuição, você deve ajustar essa distribuição. Se sua teoria produz apenas a previsão para a média, você deve seguir essa interpretação e não tentar sugerir nada além disso, como uma distribuição completa. (O sistema de curvas de Pearson certamente era sofisticado há 100 anos, mas processos aleatórios não seguem equações diferenciais para produzir as curvas de densidade, que foi sua motivação com essas curvas de densidade - em vez disso,Nt - estou pensando na distribuição Poisson como um exemplo - e não tenho certeza absoluta de que esse efeito será capturado pela distribuição beta em escala; pelo contrário, seria comprimido à medida que você puxa a média em direção ao seu limite superior teórico, o que pode ser necessário. Se o seu dispositivo de medição tiver um limite superior das medições, isso não significa que seu processo realdeve ter um limite superior; Prefiro dizer que o erro de medição introduzido pelos seus dispositivos se torna crítico à medida que o processo atinge o limite superior de ser medido com precisão razoável. Se você confunde a medida com o processo subjacente, deve reconhecê-lo explicitamente, mas eu imagino que você tenha um interesse maior no processo do que em descrever como o dispositivo funciona. (O processo estará lá daqui a 10 anos; novos dispositivos de medição poderão se tornar disponíveis, para que seu trabalho se torne obsoleto.)

StasK
fonte
Muitíssimo obrigado! Concordo que uma separação de processo e medida é interessante. No entanto, eu sugeriria que a maioria dos métodos de medição possui esse limite superior forte, mas pode ser importante isolar isso. Se eu usar o beta em escala, apesar de seu aviso sobre a confiança no ajuste do MLE, alguma sugestão de como relacionar os parâmetros de forma com este sistema para modelar variáveis ​​para permitir o MLE?
Etienne Low-Décarie
Se você está convencido de que seus limites são realmente importantes em seu aplicativo, basta seguir esse beta em escala. Tudo o que estou dizendo é que não estou convencido. Existem modelos para dados truncados, nos quais tudo que você sabe é que o valor real excede o máximo que você pode medir; às vezes, são usadas em conjunto com a codificação máxima de receitas, enquanto, por razões de confidencialidade, as receitas maiores que, digamos, US $ 100 mil / ano são truncadas para US $ 100 mil / ano.
StasK
1

@whuber está correto em não haver relação necessária da parte estrutural desse modelo com a distribuição dos termos de erro. Portanto, não há resposta para sua pergunta para a distribuição teórica de erros.

Isso não significa que não seja uma boa pergunta - apenas que a resposta terá que ser amplamente empírica.

Você parece estar assumindo que a aleatoriedade é aditiva. Não vejo nenhuma razão (além da conveniência computacional) para que esse seja o caso. Existe uma alternativa de que exista um elemento aleatório em outro lugar do modelo? Por exemplo, veja o seguinte, onde a aleatoriedade é introduzida como Normalmente distribuída com média de 1, variância é a única coisa a ser estimada. Não tenho motivos para pensar que isso é a coisa certa a fazer, exceto que produz resultados plausíveis que parecem corresponder ao que você deseja ver. Se seria prático usar algo assim como base para estimar um modelo que eu não conheço.

loggrowth <- function(K, N, r, time, rand=1){
    K*N*exp(rand*r*time)/(K+N*exp(rand*r*time-1)))}

plot(1:100, loggrowth(100,20,.08,1:100, rnorm(100,1,0.1)), 
    type="p", ylab="", xlab="time")
lines(1:100, loggrowth(100,20,.08,1:100))

insira a descrição da imagem aqui

Peter Ellis
fonte
Nesse caso, você pode ter valores de Nt abaixo de zero e acima do limite superior rígido. Além disso, o ruído é esperado em todos os parâmetros (não necessariamente no produto de um parâmetro com o tempo), daí o ruído na variável de resposta. Eu ainda estaria interessado na interpretação da máxima probabilidade de sua abordagem.
Etienne Low-Décarie
Isso não permite que a distribuição seja limitada para cada Nt e não permite que o componente de ruído seja inclinado. Não sei se minha ideia de uma distribuição beta em escala foi usada na literatura, mas satisfaz bem as restrições. Eu não tentei, mas talvez a probabilidade máxima possa ser tentada. Não tenho certeza, mas talvez haja um problema se c for incluído na estimativa de probabilidade. Talvez c possa ser estimado separadamente com base apenas em Nt e o restante do modelo possa ser ajustado pela máxima probabilidade para cada Nt fixo.
Michael R. Chernick
Eu só estou pensando em voz alta. Alguém acha que esse problema pode ser transformado em um bom trabalho de pesquisa?
Michael R. Chernick
Um artigo de 1966 analisou isso um pouco, mas não o vi mais recente. Eu talvez as coisas mudaram desde então? jstor.org/discover/10.2307/…
Etienne Low-Décarie
Entre em contato se você decidir seguir esse caminho.
Etienne Low-Décarie