Acho que exercícios simples de análise de dados geralmente podem ajudar a ilustrar e esclarecer conceitos estatísticos. Quais exercícios de análise de dados você usa para ensinar conceitos estatísticos?
Como preciso explicar os métodos de seleção de variáveis com bastante frequência, não em um contexto de ensino, mas para os não estatísticos que solicitam ajuda em suas pesquisas, adoro esse exemplo extremamente simples que ilustra por que a seleção de variáveis únicas não é necessariamente uma boa idéia.
Se você possui este conjunto de dados:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Não demora muito para perceber que ambos, X1 e X2, individualmente, são completamente não informativos para y (quando são iguais, y é 'certo' ser 1 - estou ignorando os problemas de tamanho de amostra aqui, assuma estas quatro observações para: ser o universo inteiro). No entanto, a combinação das duas variáveis é completamente informativa. Assim, é mais fácil para as pessoas entenderem por que não é uma boa ideia (por exemplo) verificar apenas o valor-p para modelos com cada variável individual como um regressor.
Na minha experiência, isso realmente transmite a mensagem.
Coeficientes de regressão múltipla e falácia de sinal esperada
Uma das minhas ilustrações favoritas de um conceito estatístico através de um exercício de análise de dados é a desconstrução de uma regressão múltipla em múltiplas regressões bivariadas.
Objetivos
Conceito
Os coeficientes de regressão em um modelo de regressão múltipla representam a relação entre a) a parte de uma dada variável preditora (x1) que não está relacionada a todas as outras variáveis preditivas (x2 ... xN) no modelo; e 2) a parte da variável de resposta (Y) que não está relacionada a todas as outras variáveis preditoras (x2 ... xN) no modelo. Quando há correlação entre os preditores, os sinais associados aos coeficientes preditores representam as relações entre esses resíduos.
Exercício
O coeficiente da etapa 4 para r2 será o coeficiente de x1 para o modelo de regressão múltipla com x1 e x2. Você pode fazer o mesmo para x2, separando x1 para y e x2.
Aqui está um código R para este exercício.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Aqui estão os resultados e resultados relevantes.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***