Suponha que eu tenha várias cidades com diferentes tamanhos populacionais e queira ver se há uma relação linear positiva entre o número de lojas de bebidas em uma cidade e o número de DUIs. Onde estou determinando se esse relacionamento é significativo ou não com base em um teste t do coeficiente de regressão estimado.
Agora claramente o pop. o tamanho de uma cidade será positivamente correlacionado com o número de DUIs e o número de lojas de bebidas. Portanto, se eu executar uma regressão linear simples em apenas lojas de bebidas alcoólicas e ver se seu coeficiente de regressão é estatisticamente significativo, provavelmente terei um problema de multicolinearidade e superestimarei o efeito das lojas de bebidas alcoólicas nas DUIs.
Qual dos dois métodos devo usar para corrigir isso?
Eu deveria dividir o número de lojas de bebidas na cidade por sua população, a fim de obter um valor per capita de lojas de bebidas e depois voltar a isso.
Devo regredir nas lojas e no tamanho das bebidas e depois ver se o coeficiente da loja é significativo ao controlar o tamanho.
Algum outro método?
Sinceramente, não consigo decidir o que parece mais sensato. Eu vacilo entre eles, dependendo de qual eu penso, sou capaz de me convencer de que esse é o caminho certo.
Por um lado, as lojas de bebidas alcoólicas per capita parecem ser a variável certa a ser usada, uma vez que as DUIs são cometidas por indivíduos, mas isso não parece ser estatisticamente rigoroso. Por outro lado, controlar o tamanho parece estatisticamente rigoroso, mas indireto. Além disso, se eu redimensionar após calcular a variável per capita das lojas de bebidas, obter coeficientes de regressão muito semelhantes entre os dois métodos, mas o método 1 produz um valor p menor.
fonte
Respostas:
Regressaria o "DUI per capita" (Y) em "licores de bebidas per capita" (X) e "tamanho da população" (Z). Dessa forma, seu Y reflete a propensão a dirigir embriagado de pessoas urbanas, enquanto X é a característica da população de uma determinada cidade. Z é uma variável de controle para o caso de haver efeito de tamanho em Y. Eu não acho que você verá um problema de multicolinearidade nesta configuração.
fonte
Se você estimar seu modelo com mínimos quadrados comuns, sua segunda regressão é bastante problemática.
E você pode pensar em como a variação do seu termo de erro varia com o tamanho da cidade.
A regressão (2) é equivalente à sua regressão (1), em que as observações são ponderadas pelo quadrado da população da cidade:
Isso representa os mínimos quadrados ponderados e os pesos que você está aplicando são o quadrado da população da cidade. Você está dando muito peso às maiores cidades ?!
Observe que se você tivesse uma observação para cada indivíduo em uma cidade e atribuísse a cada indivíduo o valor médio da cidade, isso seria equivalente a executar uma regressão em que você está ponderando cada cidade pela população (não pela população ao quadrado).
fonte
Fiz algumas experiências com dados simulados para ver qual método funciona melhor. Por favor, leia minhas descobertas abaixo.
Vamos analisar dois cenários diferentes - primeiro, onde não há relacionamento direto entre as lojas de bebidas alcoólicas e bebidas alcoólicas, e segundo, onde temos um relacionamento direto. Em seguida, examine cada um dos métodos para ver qual método funciona melhor.
Caso 1: Nenhuma relação direta, mas ambas estão relacionadas à população
Agora que os dados são simulados, vamos ver como cada um dos métodos se sai.
Nbr_Liquor_Stores altamente significativo, conforme o esperado. Embora o relacionamento seja indireto.
Nbr_Liquor_Stores não tem significado. Parece funcionar, mas não vamos tirar conclusões ainda.
Nbr_Liquor_Stores não é significativo, o valor-p também é bastante próximo ao método 1.
(Nbr_Liquor_Stores / popln) altamente significativo! Não esperava isso, talvez esse método não seja o melhor para sua declaração de problema.
Caso 2: relacionamento direto com a Population e Nbr_Liquor_Stores
Vamos ver o desempenho de cada um dos métodos neste cenário.
Método esperado, mas não ótimo, para fazer inferências causais.
Isso é uma surpresa para mim, eu esperava que esse método capturasse o relacionamento, mas ele não o pegou. Portanto, este método falha neste cenário!
Nbr_Liquor_Stores é significativo, o valor p faz muito sentido. Um vencedor claro para mim.
TLDR; O método 2 produz valores de p mais precisos em diferentes cenários.
fonte