Regressão de dados que inclui uma data

8

Eu tenho um conjunto de dados que contém algumas centenas de transações de três fornecedores que operam em mais de 100 países durante um período de três anos.

Descobrimos que o país de vendas não é um fator significativo nos preços alcançados (os produtos são mais ou menos commodities globais). Todos os preços caíram significativamente ao longo do tempo. Qualquer dia pode ter várias transações a preços diferentes do mesmo fornecedor (ou seja, em países diferentes).

Eu gostaria de testar se há uma diferença estatisticamente significativa nos preços cobrados pelos diferentes fornecedores.

Os dados são mais ou menos assim:

    Country X  1/1/2010  $200 Supplier A
    Country Y  1/1/2010  $209 Supplier A
    Country Z  1/1/2010  $187 Supplier A
    Country A  1/1/2010  $200 Supplier B
    Country X  1/2/2010  $188 Supplier B

Algumas ideias em como fazer isso?.....

Tom
fonte
3
A análise longitudinal dos dados é um campo amplo. Para dar uma boa resposta a esta pergunta, são necessárias mais informações sobre o efeito que você espera que o tempo tenha. Sem isso, não está claro se as respostas que você recebeu são boas ou não (é por isso que é bom esclarecer a pergunta antes, e não depois, você responde ...) . Sei que você disse que o preço diminui com o tempo, mas há mais? Por exemplo, espera-se que medidas repetidas no mesmo país sejam correlacionadas? Nesse caso, nenhuma das respostas existentes fará o que você precisa.
Macro
1
Ótimos pontos! @ Macro Eu esperaria alguma correlação entre vários pontos de dados dentro do mesmo país (os preços podem ser um pouco difíceis). Além disso, realizei o teste de durban-watson e constatei que os resíduos são correlacionados automaticamente. Parece que este pode estar além de mim. Talvez seja hora de chamar um verdadeiro estatístico.
Tom
2
se você estiver no R, existem funções para lidar com datas, e eu não ficaria surpreso se o R fosse capaz de lidar com dados como esse de maneira bastante elegante sem que você tivesse que especificar muito mais do que faria regularmente. Veja isso
bdeonovic 24/09
Você definitivamente precisa levar em consideração e incorporar a correlação automática. Parece que uma análise de séries temporais está em ordem. +1 por reconhecer a necessidade de trazer "um verdadeiro estatístico". Existem muitos estatísticos respeitáveis ​​disponíveis no site da Associação Estatística Americana e muitos podem ser encontrados nas universidades locais.
StatsStudent

Respostas:

2

Parece que você precisa usar métodos de séries temporais, como ARMA ou ARIMA, que permitem calcular uma regressão usando o tempo como uma variável independente sem violar a suposição de observações independentes do OLS.

Você pode tentar uma análise em duas etapas: - primeiro tempo de uso como uma única variável preditora e usar um método adequado de série temporal - dois - ver se há alguma diferença significativa nos resíduos entre os dois fornecedores. (Um simples teste t pode ser suficiente.)

Ezra Boyd
fonte
0

Existem várias maneiras. Uma opção é converter datas em dias após o primeiro dia. Além disso, você pode ter variáveis ​​adicionais de dias da semana (tendências da semana) e do mês (para ver as tendências em determinadas épocas do ano). Ao fazer isso, você pode usar a regressão múltipla.

Para obter a variável "número de dias após o primeiro dia", acredito que (tanto o Excel quanto o R) você pode simplesmente subtrair os dados anteriores da última data e obter a diferença do dia. Então, tente subtrair 1/1/2010 de todas as suas datas. Você também deve informar ao R que o novo valor é numérico usando as.numeric ()

EDIT: R parece ler no primeiro ano, então você pode ter que mexer um pouco nas datas. veja isto: /programming/2254986/how-to-subtract-days-in-r

A análise de séries temporais é outra abordagem, mas não estou muito familiarizada com isso.

Hotaka
fonte
0

Eu posso aconselhá-lo a usar a função não linear para a variável tempo, porque os preços caem é menor a cada unidade de tempo adicional. Caso contrário, o preço finalmente cairia abaixo de zero. Além disso, pode haver períodos em que a tendência mudou. Portanto, recomendo usar splines cúbicos para variável de tempo.

A experiência me diz que eu verificaria o seguinte modelo:
Y = parâmetro_ país * preço (t) * e

onde preço (t) é uma função, de preferência spline cúbico, mas também pode ser qualquer tendência, mesmo linear. Observe que existem sinais de multiplicação, não somas, no modelo.

Przemyslaw Remin
fonte
-1

Escolha uma data de referência, digamos 1/1/2010, e crie uma nova variável timeque seja a diferença entre a data e a data de referência, onde a diferença é calculada em, digamos, dias.

Agora execute uma regressão linear (ou algo semelhante) com timee suppliercomo as duas variáveis ​​preditoras e pricecomo variável de resposta.

Isto é só um ponto de partida.

zkurtz
fonte
4
Oi eu fiz isso, mas viola uma das suposições de regressão? ou seja, os pontos são observações independentes? o gráfico residual parece bom.
Tom
2
Bom ponto. É sempre bom suspeitar do resultado da regressão linear, pois as suposições nunca são atendidas 100%. Em particular, o erro padrão pode ser bastante subestimado se os resíduos estiverem correlacionados, como você sugere. Para verificar se há independência, em opção é usar o Watson Teste Durban, assim: tc.umn.edu/~ryoox001/images/DurbinWatson_test.pdf
zkurtz
Ótimos pontos! Eu esperaria alguma correlação entre vários pontos de dados dentro do mesmo país (os preços podem ser um pouco difíceis). Além disso, realizei o teste de durban-watson e constatei que os resíduos são correlacionados automaticamente. Parece que este pode estar além de mim. @zkurtz Talvez seja hora de chamar um verdadeiro estatístico.
Tom
1
É um equívoco que as observações de regressão precisam ser iid. Os erros só precisam ser correlacionados e com variação constante. A inclusão de um efeito fixo por tempo pode ajudar a garantir que essa condição seja atendida. A única coisa que pode dar errado aqui é o ajuste excessivo e / ou uma perda de precisão devido ao excesso de parâmetros para os dados. Provavelmente vale ressaltar que as equações para o ajuste de modelos ARMA estacionários (V) reduzem-se para OLS.
shadowtalker
Para lidar com a correlação serial, você provavelmente desejará usar uma abordagem de análise de séries temporais ou, no mínimo, um modelo de efeitos mistos ou GEE capaz de lidar com a natureza correlacionada dos seus dados.
StatsStudent