Uso de preditores circulares na regressão linear

19

Estou tentando ajustar um modelo usando dados de vento (0, 359) e hora do dia (0, 23), mas estou preocupado que eles se encaixem mal em uma regressão linear porque não são eles próprios parâmetros lineares. Eu gostaria de transformá-los usando Python. Eu já vi alguma menção ao cálculo de um vetor como meio de tirar o pecado e o cos dos graus, pelo menos no caso do vento, mas não muito.

Existe uma biblioteca Python ou um método relevante que possa ser útil?

compguy24
fonte
1
Obrigado por fazer isso como uma pergunta. Observe que solicitar código ou bibliotecas não é um tópico (a maior parte da sua pergunta é certamente um tópico), portanto esse aspecto pode ou não ser coberto pelas respostas aqui.
gung - Restabelece Monica
Qual é a variável de resposta (resultado, variável dependente) aqui? A direção do vento e a hora do dia são preditores?
Nick Cox
@NickCox Sim, a direção do vento e a hora do dia são preditores. O resultado é um valor inteiro que representa a concentração de partículas (poluição do ar). Também existem outros preditores, incluindo temperatura, umidade, etc ... mas acredito que não precisam ser transformados.
precisa saber é o seguinte
1
Tomei a liberdade de editar o título. O título anterior "Distribuição linear de graus em torno de um círculo" não captou a pergunta em minha opinião.
Nick Cox

Respostas:

23

0 0=360

pecado(π direção/180),porque(π direção/180)

2π=360

pecado(π Tempo/12),porque(π Tempo/12)

ou

pecado(π(Tempo+0,5)/12),porque(π(Tempo+0,5)/12)

dependendo exatamente de como o tempo foi gravado ou deve ser interpretado.

Às vezes, a natureza ou a sociedade é obrigatória e a dependência da variável circular assume a forma de uma direção ser ideal para a resposta e a direção oposta (a meio círculo de distância) ser pessimal. Nesse caso, um único termo seno e cosseno pode ser suficiente; para padrões mais complicados, você pode precisar de outros termos. Para muito mais detalhes, um tutorial sobre esta técnica de regressão circular, de Fourier, periódica e trigonométrica pode ser encontrado aqui , com referências adicionais. A boa notícia é que, depois de criar termos seno e cosseno, eles são apenas preditores extras em sua regressão.

Existe uma grande literatura sobre estatística circular, vista como parte das estatísticas direcionais. Estranhamente, essa técnica geralmente não é mencionada, pois o foco nessa literatura geralmente é sobre variáveis ​​de resposta circular. Resumir variáveis ​​circulares por suas médias vetoriais é um método descritivo padrão, mas não é necessário ou é diretamente útil para regressão.

Alguns detalhes sobre terminologia A direção do vento e a hora do dia estão em termos estatísticos variáveis, não parâmetros, seja qual for o uso em seu ramo da ciência.

yXββX[-1,1]

Comentário incidental Para uma variável de resposta como a concentração de partículas, esperaria usar um modelo linear generalizado com link logarítmico para garantir previsões positivas.

Nick Cox
fonte