Quero investigar o comportamento de estabelecimento de preços das companhias aéreas - especificamente como as empresas reagem aos preços dos concorrentes.
Como eu diria, meu conhecimento sobre análises mais complexas é bastante limitado. Eu fiz principalmente todos os métodos básicos para reunir uma visão geral dos dados. Isso inclui gráficos simples que já ajudam a identificar padrões semelhantes. Também estou usando o SAS Enterprise 9.4.
No entanto, estou procurando uma abordagem mais baseada em número.
Conjunto de dados
O conjunto de dados (auto) coletados que estou usando contém cerca de ~ 54.000 tarifas. Todas as tarifas eram coletadas em uma janela de 60 dias, diariamente (todas as noites às 00:00).
O não formatado que se parece basicamente com isso: (dados falsos)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
- I e intervalo (dias antes da partida)
- s e data da tarifa (partida do voo)
- c e data em que a tarifa foi cobrada
Aqui está um exemplo de conjunto de dados agrupados por I (DaysBeforeDep.) (Dados falsos!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
O que eu vim até agora
Olhando para os gráficos de linha, já posso estimar que várias linhas terão um alto fator de correlação. Por isso, tentei usar a análise de correlação primeiro nos dados agrupados. Mas essa é a maneira correta? Basicamente, eu tento agora fazer correlações nas médias e não nos preços individuais? Existe outra maneira?
Não tenho certeza de qual modelo de regressão se encaixa aqui, pois os preços não se movem de forma linear e parecem não lineares. Eu precisaria ajustar um modelo para cada evolução de preço de uma companhia aérea
PS: Esta é uma parede de texto longa. Se eu precisar esclarecer alguma coisa, me avise. Eu sou novo neste sub.
Alguém tem uma pista? :-)
Além da análise exploratória de dados (EDA), descritiva e visual, tentaria usar a análise de séries temporais como uma análise mais abrangente e sofisticada . Especificamente, eu realizaria análise de regressão de séries temporais . A análise de séries temporais é um enorme domínio de pesquisa e prática; portanto, se você não estiver familiarizado com os fundamentos, sugiro começar pelo artigo da Wikipedia acima vinculado, procurando gradualmente por tópicos mais específicos e lendo artigos, papéis e livros correspondentes.
Desde análise de séries temporais é um muito popular abordagem, ele é apoiado pela maioria open source e comercial de código fechado ciência dados e estatísticas ambientes (software) , tais como R , Python , SAS , SPSS e muitos outros. Se você deseja usar R para isso, verifique minhas respostas na análise geral de séries temporais e na classificação e agrupamento de séries temporais . Espero que isso seja útil.
fonte
ColumnUA(LH) 0.90435 <.0001 ColumnSQ 0.32544 <.0001 ColumnAF(DL) 0.55336 <.0001
Suponho que esses resultados indiquem padrões de preços semelhantes. Com uma análise de regressão, o que eu descobriria?