Preciso de alguns conselhos sobre dois dilemas principais da minha pesquisa, que é um estudo de caso de três grandes produtos farmacêuticos e inovação. O número de patentes por ano é a variável dependente.
Minhas perguntas são
Quais são os critérios mais importantes para um bom modelo? O que é mais / menos importante? Será que a maioria ou todas as variáveis serão significativas? É o prob de "F ESTATISTIC"? É o valor de "R ajustado ao quadrado"?
Segundo, como posso decidir o modelo mais apropriado para a pesquisa? Além das patentes que são uma variável de contagem (talvez uma contagem de Poisson), tenho variáveis explicativas, como retorno de ativos, orçamento de pesquisa e desenvolvimento, parceiro repetido (% não variável binária), tamanho da empresa (funcionários) e muito mais. Devo fazer uma regressão linear ou Poisson?
Respostas:
O mais importante é a lógica por trás do modelo. Sua variável "número de patentes por ano" é uma variável de contagem, portanto, a regressão de Poisson é indicada. Esse é um GLM (modelo linear generalizado) com (normalmente) a função de link de log, enquanto a regressão linear usual é um GLM Gaussiano com link de identidade. Aqui, é realmente a função de link de log que é mais importante, mais importante que a distribuição de erros (Poisson ou Gaussian).
A variável "Patentes" é uma variável extensa : consulte propriedades intensivas e extensas . Para variáveis intensivas , como temperatura, modelos lineares (com link de identidade) geralmente são apropriados. Mas com uma variável extensa é diferente. Pense que uma de suas empresas farmacêuticas se dividiu em duas empresas diferentes. Então as patentes tiveram que ser divididas entre as duas novas empresas. O que acontece com as covariáveis, os na sua regressão? Variáveis como número de funcionários e orçamento de RD também teriam que ser divididas.x
Em termos gerais, nesse contexto, uma variável intensiva é uma variável independente do tamanho da empresa, enquanto uma variável extensa depende (normalmente, linearmente) do tamanho da empresa. Portanto, de certa forma, se tivermos muitas variáveis extensas diferentes na equação de regressão, estaremos medindo efeitos de tamanho repetidamente . Isso parece redundante; portanto, devemos tentar, quando possível, expressar variáveis de forma intensiva , como orçamento de DR por funcionário (ou como porcentagem do orçamento total), da mesma forma receita, etc. Um número variável de funcionários terá que ser deixado como extenso. Veja a resposta da @ onestop para Lidando com regressores correlacionados para outra discussão sobre essa questão de variável extensa / intensiva.
Vejamos isso algebricamente: são patentes, orçamento (por funcionário), funcionários da empresa original, enquanto e são as variáveis correspondentes após uma divisão. Suponha, como acima, que é a única covariável extensa (comP,B,E P1,B1,E1 P2,B2,E2 E P , é claro, também extensa).
Então, antes da divisão, temos o modelo, o link de identidade, com a parte aleatória deixada de fora: Deixe as frações da divisão serem α , 1 - α, portanto, para a empresa 1 após a divisão, obtemos α P
Agora, vamos ver se o uso de uma função de link de log pode ajudar. Novamente, escrevemos modelos idealizados sem termos de perturbação. As variáveis são como acima.
Isso facilita muito a interpretação dos resultados e também compara estudos com outros dados, tendências com o tempo etc. Você não pode obter este formulário com parâmetros com interpretações independentes do tamanho com um link de identidade.
Conclusão: Use um GLM com função de link de log, talvez uma regressão de Poisson, ou binomial negativo, ou ... A função de link é uma ordem de magnitude mais importante!
Em resumo, ao construir um modelo de regressão para uma variável de resposta que é extensa , como uma variável de contagem.
Tente expressar covariáveis de forma intensiva.
Covariáveis que devem ser deixadas como extensas: registre-as (a álgebra acima depende de haver no máximo uma covariável extensa).
Use uma função de link de log.
Em seguida, outros critérios, como os baseados no ajuste, podem ser usados para decisões secundárias, como a distribuição do termo de perturbação.
fonte