Como você explicaria modelos lineares generalizados para pessoas sem formação estatística?

16

Eu sempre tenho dificuldade em explicar técnicas estatísticas para o público sem formação estatística. Se eu quisesse explicar o que o GLM é para esse público (sem jogar fora o jargão estatístico), qual seria a maneira melhor ou mais eficaz?

Eu normalmente explico o GLM com três partes - (1) o componente aleatório que é variável de resposta, (2) o componente sistemático que é preditores lineares e (3) a função de link que é a "chave" para conectar (1) e (2) Então, eu daria um exemplo de regressão linear ou logística e explicaria como a função de link é selecionada com base na variável de resposta. Por isso, atua como a chave que liga dois componentes.

Ken
fonte
Que tipo de histórico o público tem? Explicar o GLM para um matemático ou um biólogo é muito diferente.
11
Poucos matemáticos sem formação estatística, @Procrastinator. Mas seu argumento é bom: ter uma idéia mais clara do público-alvo ajudará a manter as respostas consistentes e focadas. Importa-se de editar a pergunta para expandir isso, Ken?
whuber
11
Entendo o seu ponto, @Procrastinator, mas esperava obter uma resposta fácil de entender para todos (matemáticos e / ou biólogos), em geral porque se eu não tiver formação em matemática ou biologia (qual é o caso), Eu não saberia explicar o GLM para eles em relação ao seu histórico de qualquer maneira.
Ken
4
Eu acho que é importante ter em mente que você pode obter um diploma de bacharel, mestrado ou mesmo doutorado em biologia sem nunca ter feito uma aula de estatística, mesmo em muitas universidades de primeiro nível. Meu diploma em bioquímica exigia dois semestres de cálculo introdutório e um semestre de equações diferenciais. O conteúdo dessas aulas é rapidamente esquecido, porque muitos alunos nunca mais usarão essas habilidades! Então, eu realmente acho que é necessário emburrecer a explicação para não-estatísticos típicos.
311 Alexander
Um comentário para adicionar às respostas abaixo; se você conseguir ajustar a linha (ou seja, a função de link e os preditores lineares), a conexão com a ponderação de variância inversa eficiente não é tão difícil de comunicar; simplesmente queremos ponderar contribuições precisas e ponderar o restante. Isso permite que você evite dizer algo muito técnico sobre a aleatoriedade dos resultados. NB GLMs foram concebidos como (apenas) os modelos em que o IWLS pode ser usado para fornecer o MLE; portanto, a maneira de pensar sobre eles descritos acima captura a maior parte do motivo pelo qual eles são realmente úteis.
guest

Respostas:

25

Se o público realmente não tem antecedentes estatísticos, acho que tentaria simplificar um pouco mais a explicação. Primeiro, eu desenharia um plano de coordenadas no quadro com uma linha, assim:

y = mx + b

Todo mundo na sua palestra estará familiarizado com a equação de uma linha simples, y = m x + b , porque isso é algo que é aprendido na escola. Então, eu mostraria isso ao lado do desenho. No entanto, eu escreveria de trás para frente, assim: y=mx+b

 mx+b=y

Eu diria que esta equação é um exemplo de uma regressão linear simples. Eu explicaria então como você (ou um computador) poderia ajustar essa equação a um gráfico de dispersão de pontos de dados, como o mostrado nesta imagem:

Gráfico de dispersão

Eu diria que aqui, estamos usando a idade do organismo que estamos estudando para prever o tamanho, e que a equação de regressão linear resultante que obtemos (mostrada na imagem) pode ser usada para prever o tamanho de um organismo é se soubermos sua idade.

 mx+b=y

Então eu explicaria novamente que este era um exemplo de uma equação de regressão linear simples e que na verdade existem variedades mais complicadas. Por exemplo, em uma variedade chamada regressão logística , os y's podem ter apenas 1 ou 0. Pode-se usar esse tipo de modelo se você estiver tentando prever uma resposta "sim" ou "não", como se alguém tem ou não uma doença. Outra variedade especial é algo chamado regressão de Poisson , que é usado para analisar dados de "contagem" ou "evento" (eu não me aprofundaria mais nisso, a menos que seja realmente necessário).

Eu explicaria então que a regressão linear, a regressão logística e a regressão de Poisson são realmente todos exemplos especiais de um método mais geral, algo chamado "modelo linear generalizado". A grande vantagem dos "modelos lineares generalizados" é que eles nos permitem usar dados de "resposta" que podem ter qualquer valor (como o tamanho de um organismo na regressão linear), tirar apenas 1 ou 0 (como se alguém tem ou não um doença na regressão logística) ou faça contagens discretas (como número de eventos na regressão de Poisson).

Eu diria que, nesses tipos de equações, os x's (preditores) estão conectados aos y's (respostas) por meio de algo que os estatísticos chamam de "função de link". Usamos essas "funções de link" nos casos em que os x não estão relacionados aos y de maneira linear.

Enfim, esses são meus dois centavos na questão! Talvez minha explicação proposta pareça um tanto obscena e burra, mas se o objetivo deste exercício é apenas transmitir a "essência" à platéia, talvez uma explicação como essa não seja tão ruim. Eu acho importante que o conceito seja explicado de maneira intuitiva e evite usar palavras como "componente aleatório", "componente sistemático", "função de link", "determinística", "função de logit" etc. Quando conversamos com pessoas que realmente não têm antecedentes estatísticos, como um biólogo ou médico típico, seus olhos simplesmente ficam brilhando ao ouvir essas palavras. Eles não sabem o que é uma distribuição de probabilidade, nunca ouviram falar de uma função de link e não sabem o que é um "logit"

Na sua explicação para um público não estatístico, eu também focaria em quando usar qual variedade de modelo. Posso falar sobre quantos preditores você pode incluir no lado esquerdo da equação (ouvi regras práticas como não mais que o tamanho da amostra dividido por dez). Também seria bom incluir uma planilha de exemplo com dados e explicar ao público como usar um pacote de software estatístico para gerar um modelo. Depois, passo a passo pela saída desse modelo e tentaria explicar o que significam todas as letras e números diferentes. Os biólogos não sabem o que fazer e estão mais interessados ​​em aprender qual teste usar ao invés de realmente entender a matemática por trás da GUI do SPSS!

Gostaria de receber quaisquer comentários ou sugestões sobre a minha explicação proposta, especialmente se alguém notar erros ou pensar em uma maneira melhor de explicar isso!

Alexander
fonte
4
Nem todo mundo está familiarizado com a equação de uma linha; nem todos os estudantes de pós-graduação são, nem todas as pessoas com doutorado.
Peter Flom - Restabelece Monica
6
Quero dizer, tenho certeza de que existe um estudante de pós-graduação no mundo que não conhece a equação de uma linha, mas presumivelmente uma audiência para a qual você gostaria de explicar modelos lineares generalizados teria pelo menos meia pista sobre a alta álgebra escolar! : -o
Alexander
Concordo com você, Alexander, e sua abordagem me parece muito natural. Eu não focaria muito no "g" da glm (ou muito cedo) e também não entraria em distinções entre aleatório e fixo. Claro que depende da quantidade de tempo que você tem para explicar tudo isso.
Dominic Comtois
Y=αX+βα
10

Eu não chamaria a resposta de componente aleatório. É uma combinação de um componente determinístico e um aleatório.

log(p/(1p))[0,1]

Michael R. Chernick
fonte
3
Eu me pergunto sobre esse uso de "resposta". Nosso público-alvo provavelmente entenderia que isso significa a resposta observada : sim ou não, 0 ou 1, etc. Na regressão logística, modelamos algo não observado (e nunca diretamente observável); ou seja, a chance hipotética da resposta. O "link" é apenas uma questão de expressar essas chances como probabilidades de log e não como probabilidades. A regressão logística assume que as probabilidades do log variam linearmente com os IVs. (Meu uso de "modelo", "supor" e "hipotético", em vez de "é" e "predizer", também indica um ponto de vista cognitivo e ontológico diferente.)
whuber
11
Bom ponto whuber.
Michael R. Chernick
-2

Eu explicaria dizendo que às vezes preciso das coisas previstas. Por exemplo, o preço de uma casa forneceu algumas informações sobre isso. Digamos, seu tamanho, localização, quantos anos a construção tem, etc. Quero incluir isso em um modelo que leve em consideração a influência desses fatores para prever o preço.

Agora, tomando um sub-exemplo, digamos, considero apenas o tamanho da casa. Isso implicaria que nada mais afeta o preço. Pode ser um caso em que estou comparando casas que estão na mesma localidade, foram construídas na mesma época etc. Ou pode ser que eu não queira complicar as coisas para mim e, portanto, queira que a vida real se adapte a como longe eu posso pensar. Seguindo em frente, faço um modelo em que tenho uma lista de tamanhos e preços correspondentes de propriedades semelhantes (por exemplo, de vendas que ocorreram recentemente ... mas que teriam um viés sério de casas que não estão à venda e, portanto, afetam o preço de casas que são. mas vamos ignorar isso).

Agora vejo que uma casa de 100 pés quadrados custa US $ 1 milhão (supere-se, este é um exemplo simplificado). Então, naturalmente, você esperaria que uma casa de 200 pés quadrados custasse o dobro. E é isso que chamaríamos de "padrão linear". Obviamente, quando coletamos os dados e tamanho do gráfico versus preço, vemos que não é exatamente o dobro. Mas há definitivamente uma tendência crescente.

Então, eu tento quantificar a tendência. Quanto aumento por cada metro quadrado aumentado? Isso é regressão linear.

INSERIR o mapa terminológico e continuar com os conceitos estatísticos. Uma maneira de explicar o componente aleatório e sistemático pode ser que tudo o que você esqueceu de modelar, ou não pôde avaliar, é aleatório. O que você puder é sistemático. (Por exemplo, diga que é 2008 e você quer vender uma casa.)

Pressupostos subjacentes a este modelo são que o gráfico de dispersão deve parecer uma haste. O que significa que X e Y são "normais". e todos têm variação semelhante.

Se não for esse o caso, insira GLM. e agora explique a função de link n tudo isso.

É simplificado, mas deve funcionar como uma introdução.

Você pode colocar no histórico de GLMs e modelos fatoriais. Onde Fisher exigia que as coisas começassem a variar juntas e essa estrutura era adequada para esse tipo de complexidade.

Espero que isto ajude...

Naag
fonte
11
Agradecemos seus esforços, mas não há necessidade de postar seu material até que você termine de escrevê-lo. Em sua forma atual, a maneira como se decompõe em notas enigmáticas esparsas no final decepcionará os leitores.
whuber