Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson

O mais importante é a lógica por trás do modelo. Sua variável "número de patentes por ano" é uma variável de contagem, portanto, a regressão de Poisson é indicada. Esse é um GLM (modelo linear generalizado) com (normalmente) a função de link de log, enquanto a regressão linear usual é um GLM Gaussiano com link de identidade. Aqui, é realmente a função de link de log que é mais importante, mais importante que a distribuição de erros (Poisson ou Gaussian).

A variável "Patentes" é uma variável extensa : consulte propriedades intensivas e extensas . Para variáveis intensivas , como temperatura, modelos lineares (com link de identidade) geralmente são apropriados. Mas com uma variável extensa é diferente. Pense que uma de suas empresas farmacêuticas se dividiu em duas empresas diferentes. Então as patentes tiveram que ser divididas entre as duas novas empresas. O que acontece com as covariáveis, os na sua regressão? Variáveis como número de funcionários e orçamento de RD também teriam que ser divididas. $x$

Em termos gerais, nesse contexto, uma variável intensiva é uma variável independente do tamanho da empresa, enquanto uma variável extensa depende (normalmente, linearmente) do tamanho da empresa. Portanto, de certa forma, se tivermos muitas variáveis extensas diferentes na equação de regressão, estaremos medindo efeitos de tamanho repetidamente . Isso parece redundante; portanto, devemos tentar, quando possível, expressar variáveis de forma intensiva , como orçamento de DR por funcionário (ou como porcentagem do orçamento total), da mesma forma receita, etc. Um número variável de funcionários terá que ser deixado como extenso. Veja a resposta da @ onestop para Lidando com regressores correlacionados para outra discussão sobre essa questão de variável extensa / intensiva.

Vejamos isso algebricamente: são patentes, orçamento (por funcionário), funcionários da empresa original, enquanto e são as variáveis correspondentes após uma divisão. Suponha, como acima, que é a única covariável extensa (com $P, B, E$ $P_1, B_1, E_1$ $P_2, B_2, E_2$ $E$ $P$ , é claro, também extensa).

Então, antes da divisão, temos o modelo, o link de identidade, com a parte aleatória deixada de fora: Deixe as frações da divisão serem portanto, para a empresa 1 após a divisão, obtemos

P = μ + β_{1} E + β_{2} B

$P= \mu+\beta_1 E + \beta_2 B$

α, 1 - α

$\alpha, 1-\alpha$

\begin{aligned} α P & = α μ + α β_{1} E + α β_{2} B \\ P_{1} & = α μ + β_{1} E_{1} + α β_{2} B_{1} \end{aligned}

$\begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align}$

P_{1} = α P, E_{1} = α E

$P_1=\alpha P, E_1=\alpha E$

B_{1} = B

$B_1=B$

E

$E$ sendo independente do tamanho da empresa, tamanho influenciando todos os outros parâmetros. Isso dificulta a interpretação dos resultados, especialmente se, em seus dados, você possui empresas de tamanhos variados, como interpretará esses coeficientes? A comparação com outros estudos com base em outros dados etc. torna-se extremamente complicada.

Agora, vamos ver se o uso de uma função de link de log pode ajudar. Novamente, escrevemos modelos idealizados sem termos de perturbação. As variáveis são como acima.

P = \exp (μ + β_{1} E + β_{2} B)

$P = \exp\left(\mu+\beta_1 E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp (\log α) \exp (μ + β_{1} E + β_{2} B) \\ P_{1} & = \exp (\log α + μ + β_{1} E + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align}$

E

$E$

P = \exp (μ + β_{1} \log E + β_{2} B)

$P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp (\log α) \exp (μ + β_{1} \log E + β_{2} B) \\ P_{1} & = \exp (\log α + μ + β_{1} \log E + β_{2} B_{1}) \\ P_{1} & = \exp ((1 - β) \log α + μ + β_{1} \log E_{1} + β_{2} B_{1}) \\ P_{1} & = \exp (μ^{'} + β_{1} \log E_{1} + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align}$

μ^{'}

$\mu'$

Isso facilita muito a interpretação dos resultados e também compara estudos com outros dados, tendências com o tempo etc. Você não pode obter este formulário com parâmetros com interpretações independentes do tamanho com um link de identidade.

Conclusão: Use um GLM com função de link de log, talvez uma regressão de Poisson, ou binomial negativo, ou ... A função de link é uma ordem de magnitude mais importante!

Em resumo, ao construir um modelo de regressão para uma variável de resposta que é extensa , como uma variável de contagem.

Tente expressar covariáveis de forma intensiva.
Covariáveis que devem ser deixadas como extensas: registre-as (a álgebra acima depende de haver no máximo uma covariável extensa).
Use uma função de link de log.

Em seguida, outros critérios, como os baseados no ajuste, podem ser usados para decisões secundárias, como a distribuição do termo de perturbação.

kjetil b halvorsen
fonte

Eu pensei que uma regressão de Poisson era uma regressão GLS com função de link de log?

Sideshow Bob

Geralmente, sim, mas você também pode considerar uma regressão de Poisson com um link de identidade (ou outro, como raiz quadrada). Mas meu argumento aqui mostra que geralmente você deseja o link do log.

b Kjetil HALVORSEN

(1 - β)

$(1-\beta)$

μ

$\mu$

Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson

Respostas: