Como começar a construir um modelo de regressão quando o preditor mais fortemente associado é binário

11

Eu tenho um conjunto de dados contendo 365 observação de três variáveis pm, a saber , tempe rain. Agora eu quero verificar o comportamento pmem resposta a alterações em outras duas variáveis. Minhas variáveis ​​são:

  • pm10 = Resposta (dependente)
  • temp = preditor (independente)
  • rain = preditor (independente)

A seguir está a matriz de correlação para meus dados:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

O problema é que, quando eu estava estudando a construção de modelos de regressão, foi escrito que o método aditivo é começar com a variável que está mais altamente relacionada à variável de resposta. No meu conjunto de dados rainestá altamente correlacionado com pm(em comparação com temp), mas, ao mesmo tempo, é uma variável fictícia (chuva = 1, sem chuva = 0), então agora tenho uma idéia de onde devo começar. Anexei duas imagens com a pergunta: O primeiro é um gráfico de dispersão dos dados, e a segunda imagem é um gráfico de dispersão da pm10vs. rain, eu também sou incapaz de interpretar dispersão de pm10vs. rain. Alguém pode me ajudar como começar?

este é o gráfico de dispersão dos meus dados

gráfico de dispersão de pm10 vs rain

Syed Asif Ali Shah
fonte
3
Esta é uma pergunta perfeitamente viável, IMO, mesmo que resulte de um mal-entendido.
gung - Restabelece Monica
yixi1,xi2,,xip|rjk|>0.8

Respostas:

17

Muitas pessoas acreditam que você deve usar alguma estratégia, como começar com a variável mais altamente associada e adicionar variáveis ​​adicionais, por sua vez, até que uma não seja significativa. No entanto, não há lógica que compele essa abordagem. Além disso, esse é um tipo de estratégia de seleção / pesquisa de variáveis ​​"gananciosas" (cf., minha resposta aqui: algoritmos para seleção automática de modelo ). Você não precisa fazer isso e realmente não deveria. Se você quer saber a relação entre pme temperain, apenas ajuste um modelo de regressão múltipla com todas as três variáveis. Você ainda precisará avaliar o modelo para determinar se é razoável e se as premissas foram atendidas, mas é isso. Se você quiser testar alguma hipótese a priori, poderá fazê-lo com o modelo. Se você deseja avaliar a precisão preditiva fora da amostra do modelo, pode fazer isso com a validação cruzada.

Você também não precisa se preocupar com multicolinearidade. A correlação entre tempe rainé listada como 0.044em sua matriz de correlação. Essa é uma correlação muito baixa e não deve causar problemas.

Repor a Monica
fonte
1
muito obrigado por suas sugestões. eu sou novo a este site não sei como usá-lo, você pode fornecer algumas sugestões adicionais ou materiais que estudam
Syed Asif Ali Shah
1
@SyedAsifAliShah, exceto que o inglês não parece ser o seu idioma nativo, não vejo problemas com a forma como você está usando o site. Em relação aos materiais de estudo, você pode ver isso ou aquilo , ou apenas navegar em nossos tópicos com a tag de referências .
gung - Restabelece Monica
devo tentar modelo linear ou GLM para os meus dados?
Syed Asif Ali Shah
1
@SyedAsifAliShah, presumivelmente um modelo linear é bom para seus dados.
gung - Restabelece Monica
bro eu preciso de sua ajuda
Syed Asif Ali Shah
10

Embora isso não atenda diretamente ao seu conjunto de dados já coletados, outra coisa que você pode tentar na próxima vez que coletar dados é evitar a gravação de "chuva" como um binário. Seus dados provavelmente seriam mais informativos se você tivesse medido a taxa de chuva (cm / hora), o que forneceria uma variável distribuída continuamente (até sua precisão de medição) de 0 ... max_rainfall.

Isso permitiria correlacionar não apenas "está chovendo" com outras variáveis, mas também "quanto está chovendo".

JKreft
fonte
oi bro i fez o mesmo de acordo com a sua sugestão i reuniram dados completos de chuva e construção do modelo
Syed Asif Ali Shah
posso pedir seu email por favor ??? Eu só quero fazer algumas perguntas
Syed Asif Ali Shah
Se você tiver perguntas adicionais sobre como configurar seu modelo, talvez uma nova pergunta do StackExchange seja o caminho a seguir. Dessa forma, você pode obter feedback de mais pessoas, muitas das quais são mais especializadas do que eu
#