Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson

19

Preciso de alguns conselhos sobre dois dilemas principais da minha pesquisa, que é um estudo de caso de três grandes produtos farmacêuticos e inovação. O número de patentes por ano é a variável dependente.

Minhas perguntas são

  • Quais são os critérios mais importantes para um bom modelo? O que é mais / menos importante? Será que a maioria ou todas as variáveis ​​serão significativas? É o prob de "F ESTATISTIC"? É o valor de "R ajustado ao quadrado"?

  • Segundo, como posso decidir o modelo mais apropriado para a pesquisa? Além das patentes que são uma variável de contagem (talvez uma contagem de Poisson), tenho variáveis ​​explicativas, como retorno de ativos, orçamento de pesquisa e desenvolvimento, parceiro repetido (% não variável binária), tamanho da empresa (funcionários) e muito mais. Devo fazer uma regressão linear ou Poisson?

Nitzan
fonte
5
Kjetil deu uma boa resposta detalhada. Uma opinião mais rápida e breve, consistente com seu argumento, é que o que você chama de "segundo" é a questão realmente importante. O que você menciona primeiro é incidental.
Nick Cox

Respostas:

31

O mais importante é a lógica por trás do modelo. Sua variável "número de patentes por ano" é uma variável de contagem, portanto, a regressão de Poisson é indicada. Esse é um GLM (modelo linear generalizado) com (normalmente) a função de link de log, enquanto a regressão linear usual é um GLM Gaussiano com link de identidade. Aqui, é realmente a função de link de log que é mais importante, mais importante que a distribuição de erros (Poisson ou Gaussian).

A variável "Patentes" é uma variável extensa : consulte propriedades intensivas e extensas . Para variáveis intensivas , como temperatura, modelos lineares (com link de identidade) geralmente são apropriados. Mas com uma variável extensa é diferente. Pense que uma de suas empresas farmacêuticas se dividiu em duas empresas diferentes. Então as patentes tiveram que ser divididas entre as duas novas empresas. O que acontece com as covariáveis, os na sua regressão? Variáveis ​​como número de funcionários e orçamento de RD também teriam que ser divididas.x

Em termos gerais, nesse contexto, uma variável intensiva é uma variável independente do tamanho da empresa, enquanto uma variável extensa depende (normalmente, linearmente) do tamanho da empresa. Portanto, de certa forma, se tivermos muitas variáveis ​​extensas diferentes na equação de regressão, estaremos medindo efeitos de tamanho repetidamente . Isso parece redundante; portanto, devemos tentar, quando possível, expressar variáveis ​​de forma intensiva , como orçamento de DR por funcionário (ou como porcentagem do orçamento total), da mesma forma receita, etc. Um número variável de funcionários terá que ser deixado como extenso. Veja a resposta da @ onestop para Lidando com regressores correlacionados para outra discussão sobre essa questão de variável extensa / intensiva.

Vejamos isso algebricamente: são patentes, orçamento (por funcionário), funcionários da empresa original, enquanto e são as variáveis ​​correspondentes após uma divisão. Suponha, como acima, que é a única covariável extensa (comP,B,EP1,B1,E1P2,B2,E2EP , é claro, também extensa).

Então, antes da divisão, temos o modelo, o link de identidade, com a parte aleatória deixada de fora: Deixe as frações da divisão serem α , 1 - α, portanto, para a empresa 1 após a divisão, obtemos α P

P=μ+β1E+β2B
α,1α
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEsendo independente do tamanho da empresa, tamanho influenciando todos os outros parâmetros. Isso dificulta a interpretação dos resultados, especialmente se, em seus dados, você possui empresas de tamanhos variados, como interpretará esses coeficientes? A comparação com outros estudos com base em outros dados etc. torna-se extremamente complicada.

Agora, vamos ver se o uso de uma função de link de log pode ajudar. Novamente, escrevemos modelos idealizados sem termos de perturbação. As variáveis ​​são como acima.

P=exp(μ+β1E+β2B)
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ

Isso facilita muito a interpretação dos resultados e também compara estudos com outros dados, tendências com o tempo etc. Você não pode obter este formulário com parâmetros com interpretações independentes do tamanho com um link de identidade.

Conclusão: Use um GLM com função de link de log, talvez uma regressão de Poisson, ou binomial negativo, ou ... A função de link é uma ordem de magnitude mais importante!

Em resumo, ao construir um modelo de regressão para uma variável de resposta que é extensa , como uma variável de contagem.

  1. Tente expressar covariáveis ​​de forma intensiva.

  2. Covariáveis ​​que devem ser deixadas como extensas: registre-as (a álgebra acima depende de haver no máximo uma covariável extensa).

  3. Use uma função de link de log.

Em seguida, outros critérios, como os baseados no ajuste, podem ser usados ​​para decisões secundárias, como a distribuição do termo de perturbação.

kjetil b halvorsen
fonte
3
Eu pensei que uma regressão de Poisson era uma regressão GLS com função de link de log?
Sideshow Bob
1
Geralmente, sim, mas você também pode considerar uma regressão de Poisson com um link de identidade (ou outro, como raiz quadrada). Mas meu argumento aqui mostra que geralmente você deseja o link do log.
b Kjetil HALVORSEN
(1β)μ