Esclarecimentos sobre a leitura de um nomograma

10

A seguir, um nomograma criado a partir do conjunto de dados mtcars com o pacote rms para a fórmula:

mpg ~ wt + am + qsec

insira a descrição da imagem aqui

O modelo em si parece bom com R2 de 0,85 e P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Não estou claro o que são esses 'Pontos', 'Total de Pontos' e 'Linear Predictor'. Qual destes representa mpg, a variável de resultado? Eu aprecio qualquer explicação.

Edit: considerando excelentes sugestões de @Glen_b para facilitar a leitura de pontos etc., a seguir pode ser um nomograma alternativo:

insira a descrição da imagem aqui

Como a variável resultado ou resposta está disponível, ela pode ser usada no lugar do termo 'Preditor Linear'. Também se torna auto-explicativo sobre como o nomograma precisa ser lido.

rnso
fonte
bom diagrama em editar lá
Glen_b -Reinstar Monica

Respostas:

11

Bem, como seu modelo é linear, com o mpg esperado igual ao preditor linear, você pode ler o mpg diretamente da escala do preditor linear.

Para cada variável, você encontra seu valor na escala relevante. Por exemplo, imagine que queríamos encontrar um mpg previsto para um carro com wt=4, am=1, qsec=18:

insira a descrição da imagem aqui

que fornece um mpg previsto de cerca de 18,94. Substituindo na equação, obtém-se 18,95, então isso é bem próximo. (Na prática, você provavelmente trabalharia apenas até o ponto mais próximo - e, portanto, obteria a precisão de 2 dígitos - "19 mpg" -, em vez de 3-4 como aqui.)

Para mim, um dos principais benefícios desse diagrama é que você vê instantaneamente o efeito relativo das alterações nas diferentes variáveis ​​preditivas (IV) na resposta (DV). Mesmo quando você não precisa do diagrama para qualquer cálculo, ele pode ter um grande valor em termos de simplesmente exibir os efeitos relativos das variáveis.


Pergunta de acompanhamento dos comentários:

Funciona da mesma maneira para regressões não lineares ou polinomiais?

E(Y)y^=b0+bx1+f(x2)

onde:

f

f

x1

x2f

insira a descrição da imagem aqui

x2

insira a descrição da imagem aqui

f(x)x=2.23

É possível que essas funções tenham vários pontos de viragem, nas quais as escalas quebrariam e girariam várias vezes - mas a linha do eixo tem apenas dois lados.

Nos nomogramas do tipo pontos, isso não apresenta dificuldade, pois é possível mover seções adicionais da escala para cima ou para baixo (ou mais geralmente, ortogonalmente à direção do eixo) um pouco até que não ocorra sobreposição.

(Mais de um ponto de inflexão pode ser um problema para nomogramas do tipo alinhamento; uma solução mostrada no livro de Harrell é compensar todas as escalas levemente de uma linha de referência, na qual a posição do valor é realmente assumida.)


Y

Exemplos de todas essas situações podem ser encontrados nas estratégias de modelagem de regressão de Harrell .



Apenas algumas notas laterais

  1. Eu preferiria ver duas escalas de pontos, na parte superior e inferior da seção relevante; caso contrário, é difícil "alinhar" com precisão, porque você precisa adivinhar o que é "vertical". Algo assim:

    insira a descrição da imagem aqui

    No entanto, como observo nos comentários, para a última seção do diagrama (total de pontos e preditor linear) talvez uma alternativa melhor para uma segunda escala de pontos seria simplesmente ter um par de escalas consecutivas (total de pontos em uma lado, preditor linear por outro), assim:

    insira a descrição da imagem aqui

    com isso evitamos a necessidade de saber o que é "vertical".

  2. Com apenas dois preditores contínuos e um único fator binário, podemos facilmente construir um nomograma de alinhamento mais tradicional :

    insira a descrição da imagem aqui

    Nesse caso, você simplesmente encontra os valores wte qsecem suas escalas e junta-os a uma linha; onde eles cruzam o mpgeixo, lemos o valor (enquanto a amvariável determina qual lado do mpgeixo você lê). Em um caso simples como esse, esses tipos de nomogramas são mais rápidos e simples de usar, mas podem ser menos fáceis de generalizar para muitos preditores, onde podem se tornar difíceis de manejar. O nomograma de estilo de pontos em sua pergunta (conforme implementado em Estratégias de modelagem de regressão e no rmspacote em R) pode adicionar mais variáveis ​​perfeitamente. Isso pode ser uma grande vantagem ao lidar com interações.

Glen_b -Reinstate Monica
fonte
Obrigado por uma explicação clara e ilustrada. Funciona da mesma maneira para regressões não lineares ou polinomiais?
rnso
11
Eu editei minha resposta para responder a esta pergunta adicional.
Glen_b -instala Monica
2
Este é um post incrível Glen. Eu acho que vou modificar o método nomogramda função plotpara adicionar a Pointsescala extra por padrão. Ótima sugestão !!
Frank Harrell
11
@FrankHarrell Não, porque você não lê nenhuma relação entre pontos e total de pontos - eles nem precisam estar na mesma página. O problema é encontrar 'vertical' para que você possa ler os pontos totais para o preditor linear com precisão. Se essas duas escalas estiverem muito próximas ou se tocarem, em vez de se afastarem duas polegadas, não é um problema. Quando estão a centímetros de distância, alguns graus de erro na localização vertical podem significar um bom erro no resultado. No entanto, você ainda precisa de duas escalas de pontos na primeira seção, porque você pode ter muitos preditores e nem todos eles podem ser adjacentes à escala de pontos.
Glen_b -Reinstala Monica
11
@FrankHarrell Pessoalmente, acho que uma grade atravessa a tela e tende a obscurecer seu valor; Evito grades quando posso. Eles também não permitem o mesmo grau de precisão na vertical, a menos que a grade seja tão boa quanto a escala (o que eu acho que seria terrível visualmente). Sem uma opção, eu acabaria editando em uma segunda escala de pontos (exatamente como eu fiz aqui) para que ele fique no que eu consideraria um estado utilizável para os dois propósitos que considero ter (i. fazer uma estimativa razoavelmente precisa dos valores previstos sem obscurecer ii. a clareza das contribuições relativas para a resposta) ..
Glen_b -Replica Monica