Como descrever ou visualizar um modelo de regressão linear múltipla

21

Estou tentando ajustar um modelo de regressão linear múltipla aos meus dados com alguns parâmetros de entrada, digamos 3.

(Eu)F(x)=UMAx1+Bx2+Cx3+douii)F(x)=(UMA B C)T(x1 x2 x3)+d

Como explico e visualizo este modelo? Eu poderia pensar nas seguintes opções:

  1. Mencione a equação de regressão conforme descrito em (coeficientes, constante) juntamente com o desvio padrão e, em seguida, um gráfico de erro residual para mostrar a precisão desse modelo. (Eu)

  2. Gráficos em pares de variáveis ​​independentes e dependentes, como este:

    insira a descrição da imagem aqui

  3. Uma vez que os coeficientes são conhecidos, os pontos de dados usados ​​para obter a equação ser condensados ​​em seus valores reais. Ou seja, os dados de treinamento têm novos valores, na forma x em vez de x 1 , x 2 , x 3 , (Eu)xx1x2x3... onde cada variável independente é multiplicada pelo respectivo coeficiente. Então esta versão simplificada pode ser mostrada visualmente como uma regressão simples, como esta:

    insira a descrição da imagem aqui

Estou confuso sobre isso, apesar de passar por material apropriado sobre este tópico. Alguém pode me explicar como "explicar" um modelo de regressão linear múltipla e como mostrá-lo visualmente.

kris
fonte
2
Qual é o objetivo do seu documento e quem são as audiências? Eu começaria com artigos semelhantes e procuraria alguns exemplos de como eles são feitos em seu próprio campo. Eu estou mais familiarizado com a literatura biomédica e, na maioria das vezes, usamos apenas uma tabela. As ilustrações são vistas com mais frequência quando os autores tentam explicar uma interação.
Penguin_Knight
@ Penguin_Knight, este é um domínio da ciência da computação, no entanto, acho que este é um genérico, e não restrito a um domínio específico. Por favor me corrija se eu estiver errado.
kris
Hmm ... embora pergunta. Eu diria que a única parte genérica, para mim, é não mostrar mais do que deveria e garantir que os componentes a serem enfatizados sejam realmente enfatizados. Mesmo apenas no meu campo, eu já vi todas as três opções. 1) tabular os resultados é o mais comum, seguido por 3), mas principalmente a forma de plotagem do resultado previsto e, em seguida, 2). Mas para 2), eu usaria o @gregory_britten sugeriu: uso ajustado X em vez de cada X. indivíduo
Penguin_Knight
use o gráfico de distribuição .... observe a distribuição dos valores ajustados que resultam do modelo e compare-a com a distribuição dos valores reais.
owais qureshi 30/01
Eu sei que isso é de anos atrás, mas se você revisitar aqui, poderá postar os dados? Então as pessoas teriam algo com que trabalhar para mostrar diferentes possibilidades.
gung - Restabelece Monica

Respostas:

21

XΔY/Δsd(X). Dessa maneira, a distância entre os coeficientes e o zero classifica sua relativa "importância" e seu IC fornece a precisão. Acho que resume muito bem os relacionamentos e oferece muito mais informações do que os coeficientes e valores de p em suas escalas numéricas naturais e muitas vezes díspares. Um exemplo está abaixo:

insira a descrição da imagem aqui

YXEuYX1+X2+X3XEuYavPlots()carlm

insira a descrição da imagem aqui

gregory_britten
fonte
Obrigado @gregory_britten por essas informações. O problema que tenho em mãos tem 8 variáveis ​​independentes. Você acha que os 'gráficos de variáveis ​​adicionados' seriam razoáveis ​​para um grande número de variáveis ​​de entrada?
kris
De acordo com a idéia do primeiro gráfico, se estiver trabalhando em R, sugiro olhar para o pacote RMS que facilita tudo isso. O bom é que podemos pedir mudanças significativas na covariância, evitando assim a necessidade de padronização.
Thomas Speidel
@ Suzanne Sim, definitivamente. O gráfico de variáveis ​​adicionado fornece perspectivas bidimensionais para qualquer número de variáveis. Pode ser particularmente revelador em dimensões mais altas. Um muitas vezes encontra padrões reveladores nos resíduos que não eram de todo evidente na Y. observado
gregory_britten
Não entendo bem a notação X1 | X2 e X3 neste contexto. Sei como é usada em relação às probabilidades, mas não consigo entender direito o que está dizendo aqui
Casebash
1
@Casebash É a regressão parcial em X1, dado que X2 e X3 estão no modelo
gregory_britten
1

Como todos eles têm a ver com a explicação dos contribuintes para a cirrose, você tentou fazer um gráfico de bolhas / círculos e usar cores para indicar os diferentes regressores e raio do círculo para indicar um impacto relativo na cirrose?

Estou me referindo aqui a um tipo de gráfico do Google que se parece com isso:insira a descrição da imagem aqui

E em uma nota não relacionada, a menos que eu esteja lendo seus gráficos erradamente, acho que você tem alguns regressores redundantes lá. O vinho já é um licor; portanto, se esses dois são regressores separados, não faz sentido manter os dois, se seu objetivo é explicar a incidência de cirrose.

rocinante
fonte