Estou trabalhando em uma tarefa de casa, onde meu professor gostaria que criassemos um verdadeiro modelo de regressão, simulássemos uma amostra de dados e ele tentaria encontrar nosso verdadeiro modelo de regressão usando algumas das técnicas que aprendemos em sala de aula. Da mesma forma, teremos que fazer o mesmo com um conjunto de dados que ele nos forneceu.
Ele diz que conseguiu produzir um modelo bastante preciso para todas as tentativas anteriores de tentar enganá-lo. Houve alguns estudantes que criaram um modelo insano, mas ele foi capaz de produzir um modelo mais simples e suficiente.
Como posso desenvolver um modelo complicado para ele encontrar? Eu não quero ser super barato, fazendo 4 termos quadráticos, 3 observações e grande variação? Como posso produzir um conjunto de dados aparentemente inócuo que possui um pequeno modelo resistente por baixo?
Ele simplesmente tem 3 regras a seguir:
Seu conjunto de dados deve ter uma variável "Y" e 20 variáveis "X" rotuladas como "Y", "X1", ..., "X20".
Sua variável de resposta deve vir de um modelo de regressão linear que satisfaça: onde e .
Todas as variáveis usadas para criar estão contidas no seu conjunto de dados.
Note-se, nem todas as 20 variáveis X precisam estar no seu modelo real
Eu estava pensando em usar algo como o Modelo de 3 Fatores Fama-Francês e fazer com que ele começasse com os dados de estoque (SPX e AAPL) e tivesse que transformar essas variáveis em retornos continuamente compostos, a fim de obsfocá-lo um pouco mais. Mas isso me deixa com valores ausentes na primeira observação e são séries temporais (que ainda não discutimos em aula).
Não tenho certeza se este é o lugar certo para postar algo assim. Eu senti que isso poderia gerar uma boa discussão.
Edit: Eu também não estou pedindo modelos "pré-construídos" em particular. Estou mais curioso sobre tópicos / ferramentas em Estatística que permitiriam que alguém fizesse isso.
Respostas:
Simplesmente torne o termo do erro muito maior que a parte explicada. Por exemplo: , em que , e . Claro, você precisa se lembrar qual era sua semente, para poder provar ao seu professor que estava certo e ele estava errado.yi=Xi1+ϵi Xij=sin(i+j) i=1..1000 σ=1000000
Boa sorte na identificação da fase com essa relação ruído / sinal.
fonte
Se o objetivo dele é recuperar o verdadeiro processo de geração de dados que cria , enganar o professor é bastante trivial. Para dar um exemplo, considere distúrbios e as seguintes equações estruturais:Y ϵi∼N(0,1)
Observe que o verdadeiro DGP de , que inclui apenas , satisfaz trivialmente a condição 2. A condição 3 também é atendida, pois é a única variável a criar e você está fornecendo e .Y X1 X1 Y X1 X2
No entanto, não há como seu professor saber se ele deve incluir apenas apenas ou e para recuperar o verdadeiro DGP de (se você acabar usando este exemplo, altere o número de variáveis). Provavelmente, ele apenas fornecerá como resposta a regressão com todas as variáveis, uma vez que todas aparecerão como preditores significativos. Você pode estender isso para 20 variáveis, se desejar, verifique esta resposta aqui e a máquina de paradoxos de Simpson aqui.X1 X2 X1 X2 Y
Observe todas as expectativas condicionais , ou as expectativas condicionais estão corretamente especificados, mas só reflete a verdadeira DGP de . Assim, depois que seu professor inevitavelmente falha na tarefa, ele pode argumentar que seu objetivo era simplesmente recuperar qualquer expectativa condicional ou obter a melhor previsão de etc. Você pode argumentar que não foi o que ele disse, pois afirma :E[Y|X1] E[Y|X2] E[Y|X1,X2] E[Y|X1] Y Y
E você pode desencadear uma boa discussão em aula sobre causalidade, o que significa o verdadeiro DGP e a identificabilidade em geral.
fonte
Use variáveis com multicolinearidade e heterocedasticidade, como renda versus idade: faça alguma engenharia de recursos dolorosa que ofereça problemas de escala: forneça NAs para alguns borrifados em escassez. A peça de linearidade realmente a torna mais desafiadora, mas pode ser dolorosa. Além disso, discrepantes aumentariam o problema para ele antecipadamente.
fonte
Os termos de interação são permitidos? caso, defina todos os coeficientes de ordem inferior como 0 e construa o modelo inteiro a partir de interações de enésima ordem (por exemplo, termos como ). Para 20 regressores, o número de possíveis interações é astronomicamente grande e seria muito difícil encontrar apenas as que você incluiu.X5X8X12X13
fonte
Escolha qualquer modelo linear. Dê a ele um conjunto de dados em que a maioria das amostras esteja em torno de x = 0. Dê a ele algumas amostras em torno de x = 1.000.000.
O bom aqui que as amostras em torno de x = 1.000.000 não são discrepantes. Eles são gerados a partir da mesma fonte. No entanto, como as escalas são muito diferentes, os erros em torno de 1 milhão não se encaixam nos erros em torno de 0.
Vamos considerar um exemplo. Nosso modelo é apenas
Temos um conjunto de dados de n amostras, perto de x = 0. Vamos escolher mais 2 pontos em valores "longe o suficiente". Assumimos que esses dois pontos tenham algum erro.
Um valor "longe o suficiente" é um valor que o erro para uma estimativa que não passa diretamente nesses dois pontos é muito maior que o erro do restante do conjunto de dados.
Portanto, a regressão linear escolherá coeficientes que passarão nesses dois pontos e perderão o restante do conjunto de dados e serão diferentes do modelo subjacente.
Veja o exemplo a seguir. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
Este está no formato da série WolfarmAlpha. Em cada par, o primeiro item é x e o segundo foi gerado no Excel usando a fórmula = A2 + NORMINV (RAND (), 0,2000).
Portanto, e adicionamos ruído aleatório distribuído normalmente com média 0 e desvio padrão de 2000. Isso é muito ruído próximo a zero, mas pequeno perto de um milhão.β0=1,β1=1
Usando Wolfram Alpha, você obtém a seguinte regressão linear , que é bem diferente da distribuição sublinhada dey = xy=178433.x−426805 y=x
fonte