Eu sempre tenho dificuldade em explicar técnicas estatísticas para o público sem formação estatística. Se eu quisesse explicar o que o GLM é para esse público (sem jogar fora o jargão estatístico), qual seria a maneira melhor ou mais eficaz?
Eu normalmente explico o GLM com três partes - (1) o componente aleatório que é variável de resposta, (2) o componente sistemático que é preditores lineares e (3) a função de link que é a "chave" para conectar (1) e (2) Então, eu daria um exemplo de regressão linear ou logística e explicaria como a função de link é selecionada com base na variável de resposta. Por isso, atua como a chave que liga dois componentes.
Respostas:
Se o público realmente não tem antecedentes estatísticos, acho que tentaria simplificar um pouco mais a explicação. Primeiro, eu desenharia um plano de coordenadas no quadro com uma linha, assim:
Todo mundo na sua palestra estará familiarizado com a equação de uma linha simples, y = m x + b , porque isso é algo que é aprendido na escola. Então, eu mostraria isso ao lado do desenho. No entanto, eu escreveria de trás para frente, assim: y=mx+b
Eu diria que esta equação é um exemplo de uma regressão linear simples. Eu explicaria então como você (ou um computador) poderia ajustar essa equação a um gráfico de dispersão de pontos de dados, como o mostrado nesta imagem:
Eu diria que aqui, estamos usando a idade do organismo que estamos estudando para prever o tamanho, e que a equação de regressão linear resultante que obtemos (mostrada na imagem) pode ser usada para prever o tamanho de um organismo é se soubermos sua idade.
Então eu explicaria novamente que este era um exemplo de uma equação de regressão linear simples e que na verdade existem variedades mais complicadas. Por exemplo, em uma variedade chamada regressão logística , os y's podem ter apenas 1 ou 0. Pode-se usar esse tipo de modelo se você estiver tentando prever uma resposta "sim" ou "não", como se alguém tem ou não uma doença. Outra variedade especial é algo chamado regressão de Poisson , que é usado para analisar dados de "contagem" ou "evento" (eu não me aprofundaria mais nisso, a menos que seja realmente necessário).
Eu explicaria então que a regressão linear, a regressão logística e a regressão de Poisson são realmente todos exemplos especiais de um método mais geral, algo chamado "modelo linear generalizado". A grande vantagem dos "modelos lineares generalizados" é que eles nos permitem usar dados de "resposta" que podem ter qualquer valor (como o tamanho de um organismo na regressão linear), tirar apenas 1 ou 0 (como se alguém tem ou não um doença na regressão logística) ou faça contagens discretas (como número de eventos na regressão de Poisson).
Eu diria que, nesses tipos de equações, os x's (preditores) estão conectados aos y's (respostas) por meio de algo que os estatísticos chamam de "função de link". Usamos essas "funções de link" nos casos em que os x não estão relacionados aos y de maneira linear.
Enfim, esses são meus dois centavos na questão! Talvez minha explicação proposta pareça um tanto obscena e burra, mas se o objetivo deste exercício é apenas transmitir a "essência" à platéia, talvez uma explicação como essa não seja tão ruim. Eu acho importante que o conceito seja explicado de maneira intuitiva e evite usar palavras como "componente aleatório", "componente sistemático", "função de link", "determinística", "função de logit" etc. Quando conversamos com pessoas que realmente não têm antecedentes estatísticos, como um biólogo ou médico típico, seus olhos simplesmente ficam brilhando ao ouvir essas palavras. Eles não sabem o que é uma distribuição de probabilidade, nunca ouviram falar de uma função de link e não sabem o que é um "logit"
Na sua explicação para um público não estatístico, eu também focaria em quando usar qual variedade de modelo. Posso falar sobre quantos preditores você pode incluir no lado esquerdo da equação (ouvi regras práticas como não mais que o tamanho da amostra dividido por dez). Também seria bom incluir uma planilha de exemplo com dados e explicar ao público como usar um pacote de software estatístico para gerar um modelo. Depois, passo a passo pela saída desse modelo e tentaria explicar o que significam todas as letras e números diferentes. Os biólogos não sabem o que fazer e estão mais interessados em aprender qual teste usar ao invés de realmente entender a matemática por trás da GUI do SPSS!
Gostaria de receber quaisquer comentários ou sugestões sobre a minha explicação proposta, especialmente se alguém notar erros ou pensar em uma maneira melhor de explicar isso!
fonte
Eu não chamaria a resposta de componente aleatório. É uma combinação de um componente determinístico e um aleatório.
fonte
Eu explicaria dizendo que às vezes preciso das coisas previstas. Por exemplo, o preço de uma casa forneceu algumas informações sobre isso. Digamos, seu tamanho, localização, quantos anos a construção tem, etc. Quero incluir isso em um modelo que leve em consideração a influência desses fatores para prever o preço.
Agora, tomando um sub-exemplo, digamos, considero apenas o tamanho da casa. Isso implicaria que nada mais afeta o preço. Pode ser um caso em que estou comparando casas que estão na mesma localidade, foram construídas na mesma época etc. Ou pode ser que eu não queira complicar as coisas para mim e, portanto, queira que a vida real se adapte a como longe eu posso pensar. Seguindo em frente, faço um modelo em que tenho uma lista de tamanhos e preços correspondentes de propriedades semelhantes (por exemplo, de vendas que ocorreram recentemente ... mas que teriam um viés sério de casas que não estão à venda e, portanto, afetam o preço de casas que são. mas vamos ignorar isso).
Agora vejo que uma casa de 100 pés quadrados custa US $ 1 milhão (supere-se, este é um exemplo simplificado). Então, naturalmente, você esperaria que uma casa de 200 pés quadrados custasse o dobro. E é isso que chamaríamos de "padrão linear". Obviamente, quando coletamos os dados e tamanho do gráfico versus preço, vemos que não é exatamente o dobro. Mas há definitivamente uma tendência crescente.
Então, eu tento quantificar a tendência. Quanto aumento por cada metro quadrado aumentado? Isso é regressão linear.
INSERIR o mapa terminológico e continuar com os conceitos estatísticos. Uma maneira de explicar o componente aleatório e sistemático pode ser que tudo o que você esqueceu de modelar, ou não pôde avaliar, é aleatório. O que você puder é sistemático. (Por exemplo, diga que é 2008 e você quer vender uma casa.)
Pressupostos subjacentes a este modelo são que o gráfico de dispersão deve parecer uma haste. O que significa que X e Y são "normais". e todos têm variação semelhante.
Se não for esse o caso, insira GLM. e agora explique a função de link n tudo isso.
É simplificado, mas deve funcionar como uma introdução.
Você pode colocar no histórico de GLMs e modelos fatoriais. Onde Fisher exigia que as coisas começassem a variar juntas e essa estrutura era adequada para esse tipo de complexidade.
Espero que isto ajude...
fonte