Estimativa do modelo exponencial

10

Um modelo exponencial é um modelo descrito pela seguinte equação:

\hat{y_{Eu}} = β_{0 0} \cdot e^{β_{1 1} x_{1 1 Eu} + \dots + β_{k} x_{k Eu}}

$\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}}$

A abordagem mais comum usada para estimar esse modelo é a linearização, o que pode ser feito facilmente calculando logaritmos de ambos os lados. Quais são as outras abordagens? Estou especialmente interessado em aqueles que podem lidar com em algumas observações. $y_{i}=0$

Atualização 31.01.2011
Estou ciente do fato de que este modelo não pode produzir zero. Vou elaborar um pouco o que estou modelando e por que escolho esse modelo. Digamos que queremos prever quanto dinheiro um cliente gasta em uma loja. É claro que muitos clientes estão apenas procurando e não compram nada, por isso existem 0. Não queria usar o modelo linear porque produz muitos valores negativos, o que não faz sentido. A outra razão é que esse modelo funciona muito bem, muito melhor que o linear. Eu usei o algoritmo genético para estimar esses parâmetros, para que não fosse uma abordagem 'científica'. Agora eu gostaria de saber como lidar com o problema usando métodos mais científicos. Também se pode assumir que a maioria, ou mesmo todas, as variáveis são variáveis binárias.

estimation nonlinear-regression Tomek Tarczynski
fonte

11

se houver zeros em seus dados, a regressão exponencial pode não ser apropriada, pois o modelo que você declarou não pode permitir que valores zero sejam observados.

mpiktas

11

Existem várias questões aqui.

(1) O modelo precisa ser explicitamente probabilístico . Em quase todos os casos, não haverá um conjunto de parâmetros para os quais o lhs corresponda ao rhs para todos os seus dados: haverá resíduos. Você precisa fazer suposições sobre esses resíduos. Você espera que eles sejam zero em média? Para ser distribuído simetricamente? Para ser distribuído aproximadamente normalmente?

Aqui estão dois modelos que concordam com o especificado, mas permitem um comportamento residual drasticamente diferente (e, portanto, normalmente resultam em estimativas de parâmetros diferentes). Você pode variar estes modelos variando suposições sobre a distribuição conjunta do : $\epsilon_{i}$

UMA: y_{Eu} = β_{0 0} \exp (β_{1 1} x_{1 1 Eu} + \dots + β_{k} x_{k Eu} + ϵ_{Eu})

$\text{A:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki} + \epsilon_{i}\right)}$

B: y_{Eu} = β_{0 0} \exp (β_{1 1} x_{1 1 Eu} + \dots + β_{k} x_{k Eu}) + ϵ_{Eu} .

$\text{B:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}\right)} + \epsilon_{i}.$

$y_i$ $\hat{y_i}$

(2) A necessidade de manipular valores zero para os y's implica que o modelo declarado (A) seja errado e inadequado , porque não pode produzir um valor zero, independentemente do erro aleatório. O segundo modelo acima (B) permite valores zero (ou mesmo negativos) de y's. No entanto, não se deve escolher um modelo apenas nessa base. Para reiterar # 1: é importante modelar os erros razoavelmente bem.

(3) A linearização altera o modelo . Normalmente, resulta em modelos como (A), mas não como (B). É usado por pessoas que analisaram seus dados o suficiente para saber que essa alteração não afetará apreciavelmente as estimativas de parâmetros e por pessoas que ignoram o que está acontecendo. (É difícil, muitas vezes, dizer a diferença.)

$y$

\begin{aligned} f (y_{Eu}) & \sim F (θ); \\ θ_{j} & = β_{j 0 0} + β_{j 1 1} x_{1 1 Eu} + \dots + β_{j k} x_{k Eu} \end{aligned}

$\eqalign{ f(y_i) &\sim F(\mathbf{\theta}); \cr \theta_j &= \beta_{j0} + \beta_{j1} x_{1i} + \cdots + \beta_{jk} x_{ki} }$

$\Pr_{F_\theta}[f(Y) = 0] = \theta_{j+1} \gt 0$ $\mathbf{\theta}$ $F$ $\theta_1, \ldots, \theta_j$ $f$ $y$ $\Pr_{F_\theta}[f(Y) \le t]$ $(1 - \theta_{j+1})F_\theta(t)$ $t \ne 0$

$Y = \beta_0 + \beta_1 X + \epsilon$ $\epsilon_i$

whuber
fonte

10

Este é um modelo linear generalizado (GLM) com uma função de link de log .

$[0,\infty)$ $y_i=0$

$y_i$ $\operatorname{P}(y_i|\bf{x})$

uma parada
fonte

É uma pena que eu não tenha sido ensinado sobre isso na universidade: / Parece que será útil nesse caso, mas preciso de algum tempo para me aprofundar nos detalhes. Obrigado!

Tomek Tarczynski

y_{i}

$y_i$

3

Você sempre pode usar mínimos quadrados não lineares . Então seu modelo será:

y_{Eu} = β_{0 0} \exp (β_{1 1} x_{1 1 Eu} + . . . + β_{k} x_{k Eu}) + ε_{Eu}

$y_i=\beta_0\exp(\beta_1x_{1i}+...+\beta_kx_{ki})+\varepsilon_i$

$y_i$

mpiktas
fonte

E quanto aos valores iniciais dos parâmetros? Qual é a boa maneira de escolhê-los? Como afirmei em uma atualização, pode-se supor que não há variáveis contínuas.

Tomek Tarczynski

@ Tomk, acho que não há uma boa maneira de escolhê-los. Geralmente isso depende dos dados. Sugiro média para a interceptação e zero para outros coeficientes.

mpiktas

Estimativa do modelo exponencial

Respostas: