Coeficiente negativo na regressão logística ordenada

17

Suponha que tenhamos a resposta ordinal e um conjunto de variáveis que pensamos irá explicar . Em seguida, fazemos uma regressão logística ordenada de (matriz de projeto) em (resposta).y:{Bad, Neutral, Good}{1,2,3}X:=[x1,x2,x3]yXy

Suponha que o coeficiente estimado de , chame-o , na regressão logística ordenada seja . Como interpreto o odds ratio (OR) de ?x1β^10.5e0.5=0.607

Eu digo "para um aumento de 1 unidade em , ceteris paribus, as chances de observar são vezes as chances de observar e para a mesma alteração em , as chances de observar são vezes as chances de observar "?x1Good0.607BadNeutralx1NeutralGood0.607Bad

Não consigo encontrar exemplos de interpretação negativa do coeficiente no meu livro ou no Google.

mdewey
fonte
2
Sim, está correto. É quase idêntico ao modo como você interpreta os coeficientes positivos.
Peter Flom - Restabelece Monica
2
Nota: normalmente dizemos "regredir y em X ", e não o contrário.
gung - Restabelece Monica

Respostas:

25

Você está no caminho certo, mas sempre dê uma olhada na documentação do software que está usando para ver qual modelo é realmente adequado. Suponha uma situação com uma variável dependente categórica com categorias ordenadas 1 , , g , , ke preditores X 1 , , X j , , X p .Y1,,g,,kX1,,Xj,,Xp

"Na natureza", você pode encontrar três opções equivalentes para escrever o modelo de probabilidades proporcionais teóricas com diferentes significados de parâmetros implícitos:

  1. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g+β1X1++βpXp(g=1,,k1)
  2. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)(g=1,,k1)
  3. logit(p(Yg))=lnp(Yg)p(Y<g)=β0g+β1X1++βpXp(g=2,,k)

(Os modelos 1 e 2 têm a restrição de que, nas regressões logísticas binárias separadas , os β j não variam com g , e β 0 1 < < β 0 g < < β 0 k - 1 , o modelo 3 tem a mesma restrição sobre a β j , e requer que β 0 2 > ... > β 0 g > ... > β 0 k )k1βjgβ01<<β0g<<β0k1βjβ02>>β0g>>β0k

  • No modelo 1, uma positivos meios que um aumento no preditor X j está associada com aumento da probabilidade de um menor categoria em Y .βjXjY
  • O modelo 1 é um tanto contra-intuitivo; portanto, o modelo 2 ou 3 parece ser o preferido no software. Aqui, um positivo meios que um aumento no preditor X j está associada com aumento da probabilidade para uma maior categoria em Y .βjXjY
  • Os modelos 1 e 2 levam às mesmas estimativas para o , mas suas estimativas para o β j têm sinais opostos.β0gβj
  • Os modelos 2 e 3 levam às mesmas estimativas para o , mas suas estimativas para o β 0 g têm sinais opostos.βjβ0g

Supondo que seu software use os modelos 2 ou 3, você pode dizer "com um aumento de 1 unidade em , ceteris paribus, as chances previstas de observar ' Y = Bom ' vs. observar ' Y = Neutro OU Ruim ' por um fator de e β 1 = 0,607 . "e igualmente" com um aumento de 1 unidade na X 1 , ceterisparibus, os preditos probabilidades de observar ' Y = Bom ou neutro ' vs observando ' Y = Bad ' mudança por um factor de e βX1Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Bad. "Observe que, no caso empírico, temos apenas as probabilidades previstas, não as reais.eβ^1=0.607

Aqui estão algumas ilustrações adicionais para o modelo 1 com categorias. Primeiro, a suposição de um modelo linear para os logits cumulativos com chances proporcionais. Segundo, as probabilidades implícitas de observar no máximo a categoria g . As probabilidades seguem funções logísticas com a mesma forma. k=4ginsira a descrição da imagem aqui

Para as probabilidades da categoria em si, o modelo representado implica as seguintes funções ordenadas: insira a descrição da imagem aqui

PS Pelo que sei, o modelo 2 é usado no SPSS, bem como nas funções R MASS::polr()e ordinal::clm(). O modelo 3 é usado nas funções R rms::lrm()e VGAM::vglm(). Infelizmente, eu não sei sobre SAS e Stata.

caracal
fonte
@Harokitty O modelo de regressão logística binária não possui termos de erro como o modelo de regressão linear. Observe que estamos modelando uma probabilidade, não a variável dependente em si. A suposição sobre uma distribuição de erro para deve ser especificada separadamente, por exemplo, em R com . Yglm(..., family=binomial)
caracal
Você tem uma referência que lida com a maneira de expressar a especificação nº 2 em sua lista de 3 alternativas?
1
@Harokitty É brevemente descrito na "Análise dos dados categóricos ordinários " de Agresti, seção 3.2.2, p49, equação 3.8 . Alternativamente, na "Análise de dados categóricos" de Agresti, seção 9.4, p323, equação 9.12.
caracal
Oi, desculpe incomodá-lo, você tem uma referência para o terceiro? Agresti não parece falar sobre isso.
2
logit(Y>g)logit(Yg)