Eu tenho um conjunto de dados que contém algumas centenas de transações de três fornecedores que operam em mais de 100 países durante um período de três anos.
Descobrimos que o país de vendas não é um fator significativo nos preços alcançados (os produtos são mais ou menos commodities globais). Todos os preços caíram significativamente ao longo do tempo. Qualquer dia pode ter várias transações a preços diferentes do mesmo fornecedor (ou seja, em países diferentes).
Eu gostaria de testar se há uma diferença estatisticamente significativa nos preços cobrados pelos diferentes fornecedores.
Os dados são mais ou menos assim:
Country X 1/1/2010 $200 Supplier A
Country Y 1/1/2010 $209 Supplier A
Country Z 1/1/2010 $187 Supplier A
Country A 1/1/2010 $200 Supplier B
Country X 1/2/2010 $188 Supplier B
Algumas ideias em como fazer isso?.....
Respostas:
Parece que você precisa usar métodos de séries temporais, como ARMA ou ARIMA, que permitem calcular uma regressão usando o tempo como uma variável independente sem violar a suposição de observações independentes do OLS.
Você pode tentar uma análise em duas etapas: - primeiro tempo de uso como uma única variável preditora e usar um método adequado de série temporal - dois - ver se há alguma diferença significativa nos resíduos entre os dois fornecedores. (Um simples teste t pode ser suficiente.)
fonte
Existem várias maneiras. Uma opção é converter datas em dias após o primeiro dia. Além disso, você pode ter variáveis adicionais de dias da semana (tendências da semana) e do mês (para ver as tendências em determinadas épocas do ano). Ao fazer isso, você pode usar a regressão múltipla.
Para obter a variável "número de dias após o primeiro dia", acredito que (tanto o Excel quanto o R) você pode simplesmente subtrair os dados anteriores da última data e obter a diferença do dia. Então, tente subtrair 1/1/2010 de todas as suas datas. Você também deve informar ao R que o novo valor é numérico usando as.numeric ()
EDIT: R parece ler no primeiro ano, então você pode ter que mexer um pouco nas datas. veja isto: /programming/2254986/how-to-subtract-days-in-r
A análise de séries temporais é outra abordagem, mas não estou muito familiarizada com isso.
fonte
Eu posso aconselhá-lo a usar a função não linear para a variável tempo, porque os preços caem é menor a cada unidade de tempo adicional. Caso contrário, o preço finalmente cairia abaixo de zero. Além disso, pode haver períodos em que a tendência mudou. Portanto, recomendo usar splines cúbicos para variável de tempo.
A experiência me diz que eu verificaria o seguinte modelo:
Y = parâmetro_ país * preço (t) * e
onde preço (t) é uma função, de preferência spline cúbico, mas também pode ser qualquer tendência, mesmo linear. Observe que existem sinais de multiplicação, não somas, no modelo.
fonte
Escolha uma data de referência, digamos 1/1/2010, e crie uma nova variável
time
que seja a diferença entre a data e a data de referência, onde a diferença é calculada em, digamos, dias.Agora execute uma regressão linear (ou algo semelhante) com
time
esupplier
como as duas variáveis preditoras eprice
como variável de resposta.Isto é só um ponto de partida.
fonte