Interpretando proporções que somam uma como variáveis ​​independentes em regressão linear

13

Eu estou familiarizado com o conceito de variáveis ​​categóricas e a respectiva codificação de variável fictícia que nos permite ajustar um nível como linha de base para evitar colinearidade. Também estou familiarizado com como interpretar estimativas de parâmetros a partir de tais modelos: a mudança prevista no resultado para um determinado nível ajustado do preditor categórico, em relação à categoria de linha de base.

O que não tenho certeza é como interpretar um conjunto de variáveis ​​independentes que são proporções que somam uma . Novamente, temos colinearidade se ajustarmos todas as proporções ao modelo; portanto, presumivelmente, teríamos que deixar uma categoria de fora como linha de base. Suponho também que examinaria o SS do tipo III para o teste geral da significância dessa variável. No entanto, como interpretamos as estimativas de parâmetros para os níveis adequados ao modelo em relação aos considerados como linha de base?

Um exemplo : no nível do código postal, a variável independente é a proporção de rochas metamórficas, ígneas e sedimentares. Como você deve saber, esses são os três principais tipos de rochas e todas as rochas são classificadas como um deles. Como tal, as proporções nos três somam 1. O resultado é o nível médio de radônio em um código postal respectivo.

Se eu fosse para caber, dizem, as metamórficas e ígneas proporções como preditores do modelo, deixando sedimentar como linha de base, um tipo geral III SS F -teste dos dois níveis embutidos significaria se o tipo de rocha, como um todo, é um importante preditor do resultado (nível médio de radônio). Então, eu pude examinar os valores de p individuais (com base na distribuição t ) para determinar se um ou ambos os tipos de rochas eram significativamente diferentes da linha de base.

No entanto, quando se trata das estimativas de parâmetros, meu cérebro continua querendo interpretá-las apenas como a mudança prevista no resultado entre os grupos (tipos de rochas), e eu não entendo como incorporar o fato de que elas são adequadas em proporções .

Se a estimativa para metamórfico foi, digamos, 0,43, a interpretação não é simplesmente que o nível médio previsto de radônio aumenta em 0,43 unidades quando a rocha é metamórfica versus sedimentar. No entanto, a interpretação também não é apenas para algum tipo de aumento de unidade (digamos 0,1) na proporção do tipo de rocha metamórfica, porque isso não reflete o fato de que também é relativo à linha de base ( sedimentar ) e, adicionalmente, que a mudança a proporção de metamórficos muda inerentemente a proporção do outro nível de rocha ajustado no modelo, ígnea .β

Alguém tem uma fonte que forneça a interpretação desse modelo ou você poderia fornecer um breve exemplo aqui, se não?

Meg
fonte
2
+1 Geralmente, as proporções não têm relações lineares com a resposta. Se reparameterizações como melhorassem o modelo, elas também permitiriam interpretações simples e naturais. Você examinou a linearidade em seus dados? (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber
11
Não, mas acho que será problemático, especialmente porque muitas das "proporções" realmente saíram como 0 e 1 ou valores muito próximos de 0 e 1 e, portanto, estão essencialmente atuando como binárias de qualquer maneira. Como tal, é provável que façamos grupos reais deles (e eliminemos as proporções), mas isso ainda despertou meu interesse sobre qual seria a interpretação correta, hipoteticamente.
Meg
Justo - é uma boa pergunta.
whuber
2
O são maneiras matematicamente equivalentes de representar o . Para interpretá-los, considere queO lado esquerdo seria chamado de "log odds ratio" quando forem probabilidades; tem um significado comparável para qualquer conjunto de proporções. Assim, o pode ser interpretado como razões de chances de log. Para um conjunto de regressores Somando à unidade, você poderia usar do como uma forma de re-expressar esses regressores em seu modelo. (Alguns cuidados são necessários sempre que ou ) π log ( π i / π j ) = λ i - λ j . π i λ i π i = 0 π i = 1λiπ
log(πi/πj)=λiλj.
πi k k - 1λiλjkk1λiπi=0πi=1
whuber
2
log ( π i / π j ) = λ i - λ j exp ( λ i )λi=log(πi) deve funcionar bem, porque e conforme pretendido.
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi
whuber

Respostas:

8

Como acompanhamento e o que eu acho que é a resposta correta (me parece razoável): postei essa pergunta no servidor de lista do ASA Connect e obtive a seguinte resposta de Thomas Sexton em Stony Brook:

"Seu modelo de regressão linear estimado é semelhante a:

ln (Radon) = (uma expressão linear em outras variáveis) + 0,43M + 0,92I

onde M e eu representam as porcentagens de rochas metamórficas e ígneas, respectivamente, no CEP. Você está limitado por:

M + I + S = 100

onde S representa as porcentagens de rochas sedimentares no código postal.

A interpretação de 0,43 é que um aumento de um ponto percentual em M está associado a um aumento de 0,43 em ln (Radon), mantendo todas as outras variáveis ​​no modelo fixas . Assim, o valor de I não pode mudar, e a única maneira de aumentar um ponto percentual em M enquanto satisfaz a restrição é diminuir em um ponto percentual em S, a categoria omitida.

Obviamente, essa alteração não pode ocorrer em códigos postais nos quais S = 0, mas uma diminuição em M e um aumento correspondente em S seriam possíveis em tais códigos postais. "

Aqui está o link para o tópico ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-f27476d3ddf5f23

Estou postando isso como a resposta correta aceita, mas ainda estou aberto a discussões adicionais se alguém tiver algo a acrescentar.

Meg
fonte
Um conselho seria ir para o tópico ASA, pois há bastante discussão que questiona a resposta fornecida aqui.
Maxim.K 14/01
@ Maxim.K: Você está se referindo ao meu próprio thread ASA que eu liguei acima? Nesse caso, sim, houve muitas advertências não respondidas e ainda não tenho certeza absoluta da resposta "correta" (se é que existe alguma). Foi por isso que adicionei o qualificador "Estou postando isso como a resposta correta aceita, mas ainda estou aberto a discussões adicionais se alguém tiver algo a acrescentar".
Meg