Ocultando um modelo de regressão do professor (Regression Battleship) [fechado]

11

Estou trabalhando em uma tarefa de casa, onde meu professor gostaria que criassemos um verdadeiro modelo de regressão, simulássemos uma amostra de dados e ele tentaria encontrar nosso verdadeiro modelo de regressão usando algumas das técnicas que aprendemos em sala de aula. Da mesma forma, teremos que fazer o mesmo com um conjunto de dados que ele nos forneceu.

Ele diz que conseguiu produzir um modelo bastante preciso para todas as tentativas anteriores de tentar enganá-lo. Houve alguns estudantes que criaram um modelo insano, mas ele foi capaz de produzir um modelo mais simples e suficiente.

Como posso desenvolver um modelo complicado para ele encontrar? Eu não quero ser super barato, fazendo 4 termos quadráticos, 3 observações e grande variação? Como posso produzir um conjunto de dados aparentemente inócuo que possui um pequeno modelo resistente por baixo?

Ele simplesmente tem 3 regras a seguir:

  1. Seu conjunto de dados deve ter uma variável "Y" e 20 variáveis ​​"X" rotuladas como "Y", "X1", ..., "X20".

  2. Sua variável de resposta deve vir de um modelo de regressão linear que satisfaça: onde e .Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Todas as variáveis usadas para criar estão contidas no seu conjunto de dados.XY

Note-se, nem todas as 20 variáveis ​​X precisam estar no seu modelo real

Eu estava pensando em usar algo como o Modelo de 3 Fatores Fama-Francês e fazer com que ele começasse com os dados de estoque (SPX e AAPL) e tivesse que transformar essas variáveis ​​em retornos continuamente compostos, a fim de obsfocá-lo um pouco mais. Mas isso me deixa com valores ausentes na primeira observação e são séries temporais (que ainda não discutimos em aula).

Não tenho certeza se este é o lugar certo para postar algo assim. Eu senti que isso poderia gerar uma boa discussão.

Edit: Eu também não estou pedindo modelos "pré-construídos" em particular. Estou mais curioso sobre tópicos / ferramentas em Estatística que permitiriam que alguém fizesse isso.

dylanjm
fonte
4
Vai ser difícil se ele está limitando-o a um modelo linear ...
Frank H.
4
Se o seu professor vencer, se seus verdadeiros coeficientes estiverem dentro dos intervalos de confiança de 95%, a multicolinearidade não ajudará, porque a multicolinearidade aumenta enormemente os ICs. Se, por outro lado, a avaliação for feita sobre a diferença entre os dados previstos e reais em novos preditores (os dados "reais" foram gerados usando o seu verdadeiro DGP), a multicolinearidade será uma abordagem muito melhor. Conclusão: descubra qual é a função de destino e adapte sua abordagem a ela. (Isto aplica-se de modo mais geral na vida ...)
Stephan Kolassa
4
@dylanjm Você poderia definir com precisão suas condições de vitória?
Matthew Gunn
11
O objetivo desse exercício é que você aprenda tentando pensar em alguma coisa . Se você colocar especialistas aqui contra ele, sua oportunidade de realmente esticar seu cérebro consolidando diferentes informações que você recebeu em relação à regressão será reduzida drasticamente (além de ser injusta com o professor). Além disso, em qualquer instituição respeitável que apresente um trabalho para ele como seu, quando foi parcialmente realizado por outra pessoa, pode estar em algum lugar entre a má conduta acadêmica e a fraude (especialmente se isso fizer parte de sua marca). Tenha muito cuidado com exatamente como você pergunta isso.
Glen_b -Reinstala Monica
4
Apesar da popularidade desta questão, sinto-me obrigado a encerrá-la neste momento, porque mesmo após repetidos pedidos de esclarecimentos sobre as regras do jogo (que critérios serão usados ​​para avaliar o sucesso, quantas amostras você deve fornecer, etc.) isso é importante a informação ainda não apareceu na pergunta. Nossos objetivos são mais restritos e mais focados do que "gerar discussão": consulte nossa central de ajuda para saber os tipos de perguntas que podemos abordar neste site.
whuber

Respostas:

6

Simplesmente torne o termo do erro muito maior que a parte explicada. Por exemplo: , em que , e . Claro, você precisa se lembrar qual era sua semente, para poder provar ao seu professor que estava certo e ele estava errado.yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Boa sorte na identificação da fase com essa relação ruído / sinal.

Aksakal
fonte
Isso parece não funcionar para o critério de vitória do IC, funciona? Nós simplesmente obteremos ICs enormes que certamente abrangerão 1. E alguma instabilidade numérica, é claro.
precisa saber é o seguinte
Instabilidade não será um problema, tudo o que estou fazendo é enterrar o sinal em ruído. Isso sairá como ruído branco puro.
Aksakal
4
este foi considerado um modelo mais barato indesejável pelo OP
Sexto Empírico
5

Se o objetivo dele é recuperar o verdadeiro processo de geração de dados que cria , enganar o professor é bastante trivial. Para dar um exemplo, considere distúrbios e as seguintes equações estruturais:YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Observe que o verdadeiro DGP de , que inclui apenas , satisfaz trivialmente a condição 2. A condição 3 também é atendida, pois é a única variável a criar e você está fornecendo e .YX1X1YX1X2

No entanto, não há como seu professor saber se ele deve incluir apenas apenas ou e para recuperar o verdadeiro DGP de (se você acabar usando este exemplo, altere o número de variáveis). Provavelmente, ele apenas fornecerá como resposta a regressão com todas as variáveis, uma vez que todas aparecerão como preditores significativos. Você pode estender isso para 20 variáveis, se desejar, verifique esta resposta aqui e a máquina de paradoxos de Simpson aqui.X1X2X1X2 Y

Observe todas as expectativas condicionais , ou as expectativas condicionais estão corretamente especificados, mas só reflete a verdadeira DGP de . Assim, depois que seu professor inevitavelmente falha na tarefa, ele pode argumentar que seu objetivo era simplesmente recuperar qualquer expectativa condicional ou obter a melhor previsão de etc. Você pode argumentar que não foi o que ele disse, pois afirma :E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

A variável Y deve vir de um modelo de regressão linear que satisfaça (...) variáveis usadas para criar Y (...) seu modelo real (...)

E você pode desencadear uma boa discussão em aula sobre causalidade, o que significa o verdadeiro DGP e a identificabilidade em geral.

Carlos Cinelli
fonte
você está propondo um modelo que seja compatível com o # 2 na pós
Aksakal
3

Use variáveis ​​com multicolinearidade e heterocedasticidade, como renda versus idade: faça alguma engenharia de recursos dolorosa que ofereça problemas de escala: forneça NAs para alguns borrifados em escassez. A peça de linearidade realmente a torna mais desafiadora, mas pode ser dolorosa. Além disso, discrepantes aumentariam o problema para ele antecipadamente.

David
fonte
Acho que a heterocedasticidade está fora do escopo do problema, mas definitivamente concordo que a multicolinearidade é uma das melhores maneiras de tornar difícil encontrar a verdadeira especificação.
JDL
2

Os termos de interação são permitidos? caso, defina todos os coeficientes de ordem inferior como 0 e construa o modelo inteiro a partir de interações de enésima ordem (por exemplo, termos como ). Para 20 regressores, o número de possíveis interações é astronomicamente grande e seria muito difícil encontrar apenas as que você incluiu.X5X8X12X13

Ruben van Bergen
fonte
0

Escolha qualquer modelo linear. Dê a ele um conjunto de dados em que a maioria das amostras esteja em torno de x = 0. Dê a ele algumas amostras em torno de x = 1.000.000.

O bom aqui que as amostras em torno de x = 1.000.000 não são discrepantes. Eles são gerados a partir da mesma fonte. No entanto, como as escalas são muito diferentes, os erros em torno de 1 milhão não se encaixam nos erros em torno de 0.

Vamos considerar um exemplo. Nosso modelo é apenas

Yi=β0+β1Xi1+ϵi

Temos um conjunto de dados de n amostras, perto de x = 0. Vamos escolher mais 2 pontos em valores "longe o suficiente". Assumimos que esses dois pontos tenham algum erro.

Um valor "longe o suficiente" é um valor que o erro para uma estimativa que não passa diretamente nesses dois pontos é muito maior que o erro do restante do conjunto de dados.

Portanto, a regressão linear escolherá coeficientes que passarão nesses dois pontos e perderão o restante do conjunto de dados e serão diferentes do modelo subjacente.

Veja o exemplo a seguir. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Este está no formato da série WolfarmAlpha. Em cada par, o primeiro item é x e o segundo foi gerado no Excel usando a fórmula = A2 + NORMINV (RAND (), 0,2000).

Portanto, e adicionamos ruído aleatório distribuído normalmente com média 0 e desvio padrão de 2000. Isso é muito ruído próximo a zero, mas pequeno perto de um milhão.β0=1,β1=1

Usando Wolfram Alpha, você obtém a seguinte regressão linear , que é bem diferente da distribuição sublinhada dey = xy=178433.x426805y=x

DaL
fonte
Como exatamente isso deve funcionar e que efeito isso deve criar?
Richard Hardy
Funciona, pois o ruído e a precisão funcionam de maneira diferente nas diferentes escalas. Nos números altos, levando ao extremo e considerar um único ponto, a linha deve passar diretamente por ele ou sofrer muito custo. Algum ruído é suficiente para perder os valores corretos. Em torno de zero, mais uma vez no extremo - sem intenções, você fica com o barulho.
Dal
Use um valor pequeno para a variável com o coeficiente errado e você está pagando o custo.
DaL
Sim, mas por que seria difícil para o professor descobrir o modelo que gerou isso? Parece uma tarefa particularmente fácil quando há muita variação no regressor fornecido.
Richard Hardy
Porque nenhum modelo se encaixa bem nos dois grupos.
DaL