Eu tenho um conjunto de dados contendo 365 observação de três variáveis pm
, a saber , temp
e rain
. Agora eu quero verificar o comportamento pm
em resposta a alterações em outras duas variáveis. Minhas variáveis são:
pm10
= Resposta (dependente)temp
= preditor (independente)rain
= preditor (independente)
A seguir está a matriz de correlação para meus dados:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
O problema é que, quando eu estava estudando a construção de modelos de regressão, foi escrito que o método aditivo é começar com a variável que está mais altamente relacionada à variável de resposta. No meu conjunto de dados rain
está altamente correlacionado com pm
(em comparação com temp
), mas, ao mesmo tempo, é uma variável fictícia (chuva = 1, sem chuva = 0), então agora tenho uma idéia de onde devo começar. Anexei duas imagens com a pergunta: O primeiro é um gráfico de dispersão dos dados, e a segunda imagem é um gráfico de dispersão da pm10
vs. rain
, eu também sou incapaz de interpretar dispersão de pm10
vs. rain
. Alguém pode me ajudar como começar?
fonte
Respostas:
Muitas pessoas acreditam que você deve usar alguma estratégia, como começar com a variável mais altamente associada e adicionar variáveis adicionais, por sua vez, até que uma não seja significativa. No entanto, não há lógica que compele essa abordagem. Além disso, esse é um tipo de estratégia de seleção / pesquisa de variáveis "gananciosas" (cf., minha resposta aqui: algoritmos para seleção automática de modelo ). Você não precisa fazer isso e realmente não deveria. Se você quer saber a relação entre
pm
etemp
erain
, apenas ajuste um modelo de regressão múltipla com todas as três variáveis. Você ainda precisará avaliar o modelo para determinar se é razoável e se as premissas foram atendidas, mas é isso. Se você quiser testar alguma hipótese a priori, poderá fazê-lo com o modelo. Se você deseja avaliar a precisão preditiva fora da amostra do modelo, pode fazer isso com a validação cruzada.Você também não precisa se preocupar com multicolinearidade. A correlação entre
temp
erain
é listada como0.044
em sua matriz de correlação. Essa é uma correlação muito baixa e não deve causar problemas.fonte
Embora isso não atenda diretamente ao seu conjunto de dados já coletados, outra coisa que você pode tentar na próxima vez que coletar dados é evitar a gravação de "chuva" como um binário. Seus dados provavelmente seriam mais informativos se você tivesse medido a taxa de chuva (cm / hora), o que forneceria uma variável distribuída continuamente (até sua precisão de medição) de 0 ... max_rainfall.
Isso permitiria correlacionar não apenas "está chovendo" com outras variáveis, mas também "quanto está chovendo".
fonte