Razões em regressão, também conhecidas como perguntas sobre Kronmal

14

Recentemente, perguntas de navegação aleatória provocaram a memória de comentários de um de meus professores há alguns anos, alertando sobre o uso de proporções em modelos de regressão. Então comecei a ler sobre isso, levando eventualmente a Kronmal 1993.

Quero ter certeza de que estou interpretando corretamente as sugestões dele sobre como modelá-las.

  1. Para um modelo com uma proporção com o mesmo denominador no lado dependente e independente:
    Z-1Y=Z-11nβ0 0+Z-1XβX+βZ+Z-1ϵ

    • Relação dependente de regressão na variável denominadora (inversa), além das outras relações
    • Peso pela variável denominadora (inversa)
  2. Para um modelo com variável dependente como uma proporção:
    Y=β0 0+βXX+Z1nα0 0+ZXαX+Z-1ϵ

    • Regressar numerador por variáveis ​​originais, denominador e denominador vezes variáveis ​​originais [e as variáveis ​​categóricas?]
    • Peso por denominador (inverso)
  3. Para o modelo com apenas proporções variáveis ​​independentes: Y=β0 0+XβX+Z-11nβZ-1+WβW+Z-1WβZ-1W+ϵ

    • Inclua numerador e denominador (inverso) como efeitos principais, razão como termo de interação.

Minhas interpretações aqui estão corretas?

Afim
fonte

Respostas:

1

Você realmente deveria ter ligado ao jornal Kronmal (e explicado sua anotação, que é retirada diretamente do artigo.) Sua leitura do artigo é muito literal. Especificamente, ele não dá conselhos sobre ponderação, dizendo que a ponderação pode ser feita da maneira usual, portanto não há necessidade de discutir. É apenas mencionado como uma possibilidade. Leia seus casos mais como exemplos, especialmente como exemplos de como analisar essas situações.

Na seção 6, ele fornece alguns conselhos gerais, que citarei aqui:

A mensagem deste artigo é que as variáveis ​​de razão devem ser usadas apenas no contexto de um modelo linear completo, no qual as variáveis ​​que compõem a razão são incluídas e o termo de interceptação também está presente. A prática comum de usar proporções para a variável dependente ou independente na análise de regressão pode levar a inferências enganosas e raramente resulta em algum ganho. Essa prática é generalizada e arraigada, no entanto, e pode ser difícil convencer alguns pesquisadores de que devem desistir de sua taxa ou índice mais valorizado.

O artigo usa o exemplo (fictício) de Neyman sobre nascimentos e cegonhas. Para brincar com esse exemplo, você pode acessá-lo a partir de R

data(stork, package="TeachingDemos")

Vou deixar a diversão para os leitores, mas um enredo interessante é o seguinte coplot:

gráfico de condicionamento para o exemplo das cegonhas Neyman

kjetil b halvorsen
fonte