Eu estou familiarizado com o conceito de variáveis categóricas e a respectiva codificação de variável fictícia que nos permite ajustar um nível como linha de base para evitar colinearidade. Também estou familiarizado com como interpretar estimativas de parâmetros a partir de tais modelos: a mudança prevista no resultado para um determinado nível ajustado do preditor categórico, em relação à categoria de linha de base.
O que não tenho certeza é como interpretar um conjunto de variáveis independentes que são proporções que somam uma . Novamente, temos colinearidade se ajustarmos todas as proporções ao modelo; portanto, presumivelmente, teríamos que deixar uma categoria de fora como linha de base. Suponho também que examinaria o SS do tipo III para o teste geral da significância dessa variável. No entanto, como interpretamos as estimativas de parâmetros para os níveis adequados ao modelo em relação aos considerados como linha de base?
Um exemplo : no nível do código postal, a variável independente é a proporção de rochas metamórficas, ígneas e sedimentares. Como você deve saber, esses são os três principais tipos de rochas e todas as rochas são classificadas como um deles. Como tal, as proporções nos três somam 1. O resultado é o nível médio de radônio em um código postal respectivo.
Se eu fosse para caber, dizem, as metamórficas e ígneas proporções como preditores do modelo, deixando sedimentar como linha de base, um tipo geral III SS F -teste dos dois níveis embutidos significaria se o tipo de rocha, como um todo, é um importante preditor do resultado (nível médio de radônio). Então, eu pude examinar os valores de p individuais (com base na distribuição t ) para determinar se um ou ambos os tipos de rochas eram significativamente diferentes da linha de base.
No entanto, quando se trata das estimativas de parâmetros, meu cérebro continua querendo interpretá-las apenas como a mudança prevista no resultado entre os grupos (tipos de rochas), e eu não entendo como incorporar o fato de que elas são adequadas em proporções .
Se a estimativa para metamórfico foi, digamos, 0,43, a interpretação não é simplesmente que o nível médio previsto de radônio aumenta em 0,43 unidades quando a rocha é metamórfica versus sedimentar. No entanto, a interpretação também não é apenas para algum tipo de aumento de unidade (digamos 0,1) na proporção do tipo de rocha metamórfica, porque isso não reflete o fato de que também é relativo à linha de base ( sedimentar ) e, adicionalmente, que a mudança a proporção de metamórficos muda inerentemente a proporção do outro nível de rocha ajustado no modelo, ígnea .
Alguém tem uma fonte que forneça a interpretação desse modelo ou você poderia fornecer um breve exemplo aqui, se não?
Respostas:
Como acompanhamento e o que eu acho que é a resposta correta (me parece razoável): postei essa pergunta no servidor de lista do ASA Connect e obtive a seguinte resposta de Thomas Sexton em Stony Brook:
"Seu modelo de regressão linear estimado é semelhante a:
ln (Radon) = (uma expressão linear em outras variáveis) + 0,43M + 0,92I
onde M e eu representam as porcentagens de rochas metamórficas e ígneas, respectivamente, no CEP. Você está limitado por:
M + I + S = 100
onde S representa as porcentagens de rochas sedimentares no código postal.
A interpretação de 0,43 é que um aumento de um ponto percentual em M está associado a um aumento de 0,43 em ln (Radon), mantendo todas as outras variáveis no modelo fixas . Assim, o valor de I não pode mudar, e a única maneira de aumentar um ponto percentual em M enquanto satisfaz a restrição é diminuir em um ponto percentual em S, a categoria omitida.
Obviamente, essa alteração não pode ocorrer em códigos postais nos quais S = 0, mas uma diminuição em M e um aumento correspondente em S seriam possíveis em tais códigos postais. "
Aqui está o link para o tópico ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-f27476d3ddf5f23
Estou postando isso como a resposta correta aceita, mas ainda estou aberto a discussões adicionais se alguém tiver algo a acrescentar.
fonte