Estou interessado na interação tratamento-covariáveis no contexto de experiências / ensaios clínicos randomizados, com um binário indicador de atribuição de tratamento .
Dependendo do método / fonte específico, vi e para os sujeitos tratados e os não tratados, respectivamente.T = { 1 , - 1 }
Existe alguma regra prática quando usar ou ?{ 1 , - 1 }
De que maneira a interpretação difere?
binary-data
categorical-encoding
cecefuss
fonte
fonte
Respostas:
A interpretação do estimador da variável indicador e da interceptação diferem. Vamos começar com :{ 1 , 0 }
Digamos que você tenha o seguinte modelo
Onde
Nesse caso, você acaba com as seguintes fórmulas para :yEu
Portanto, a interpretação de é o efeito do placebo e a interpretação de é a diferença entre o efeito do placebo e o efeito do medicamento. Com efeito, você pode interpretar como a melhoria que o medicamento oferece.β 1 β 1β0 0 β1 1 β1 1
Agora vamos ver :{ - 1 , 1 }
Você tem o seguinte modelo (novamente):
mas onde
Nesse caso, você acaba com as seguintes fórmulas para :yEu
A interpretação aqui é que é a média do efeito do placebo e do efeito da droga, e é a diferença dos dois tratamentos para essa média.β 1β0 0 β1 1
Então, qual você usa?
A interpretação de em é basicamente uma linha de base. Você define algum tratamento padrão e todos os outros tratamentos (podem haver vários) são comparados com esse padrão / linha de base. Especialmente quando você começa a adicionar outras covariáveis, isso permanece fácil de interpretar com relação à pergunta médica padrão: como esses medicamentos se comparam com um placebo ou com o medicamento estabelecido? { 0 , 1 }β0 0 { 0 , 1 }
Mas, no final, tudo é uma questão de interpretação, que expliquei acima. Portanto, você deve avaliar suas hipóteses e verificar qual interpretação torna o desenho das conclusões o mais direto.
fonte
No contexto da regressão linear, é o método mais natural (e padrão) para codificar variáveis binárias (colocando-as no lado esquerdo do lado direito da regressão). Como explica o @Jarko Dubbeldam, é claro que você pode usar a outra interpretação e o significado dos coeficientes será diferente.xEu∈ { 0 , 1 }
Para dar um exemplo de outra maneira, a codificação das variáveis de saída é padrão ao programar ou derivar a matemática subjacente às máquinas de vetores de suporte . (Ao chamar bibliotecas, você deseja passar os dados no formato que a biblioteca espera, que provavelmente é a formulação 0, 1).yEu∈ { - 1 , 1 }
Tente usar a notação que é padrão para o que você está fazendo / usando.
Para qualquer tipo de modelo linear com um termo de interceptação, os dois métodos serão equivalentes no sentido de que estão relacionados por uma simples transformação linear. Matematicamente, não importa se você usa a matriz de dados ou a matriz de dados ˜ X = X A em que A é a classificação completa. Em modelos lineares generalizados, seus coeficientes estimados de qualquer maneira serão relacionados pela transformação linear e os valores ajustados serão os mesmos.X X~= XUMA UMA yUMA y^
fonte
Isso é mais abstrato (e talvez inútil), mas observarei que essas duas representações são, em sentido matemático, na verdade representações de grupo, e há um isomorfismo entre elas.
fonte