Estou analisando conjuntos de dados da CPI para países em desenvolvimento que possuem lacunas.
Para cada país, tenho duas séries temporais com médias anuais para os anos 2000-2013: i) IPC geral / geral e ii) IPC de alimentos. Também estou assumindo que o IPC de alimentos deve ter alguma relação com o IPC geral / geral, já que a categoria de alimentos tem seu próprio peso no IPC geral.
Agora, tenho dois tipos de casos, alguns como: http://imgur.com/a/9z7o8#1, em que existem diferenças entre os valores. Estou assumindo que posso interpolar aqui, se sim, como eu iria adiante com isso? Eu também tenho que lidar com casos mais complicados, como: http://imgur.com/a/9z7o8#0 , alguma sugestão nesse caso? Uma simples extrapolação faria sentido aqui?
Uma opção para o meu primeiro caso que li (no BLS) é obter a média geométrica do ano imediatamente antes e depois do valor ausente. Outras pessoas sugeriram que eu previsse os valores ausentes por meio de um modelo de regressão simples do IPC no deflator do PIB daquele ano (o que eu tenho).
Além disso, em alguns casos, existem lacunas nas médias anuais porque os dados mensais necessários para calcular essas médias estão incompletos. Digamos que eu só tenha dados de 2006 para a Rússia nos meses de janeiro a junho, então o ponto médio anual de dados está ausente na série de dados. Suponho que posso apenas obter uma média simples dos meses disponíveis e imputá-la em 2006?
desde já, obrigado
fonte
Respostas:
A análise estatística com dados ausentes de Little e Rubin é a referência para trabalhar com dados ausentes, pelo menos se nada for exigido. Em geral, esse é um problema complexo que continua sendo uma área de pesquisa ativa. Os casos relativamente fáceis são quando os dados estão faltando completamente ao acaso ou faltando ao acaso . Mesmo entre os métodos mais básicos de imputação única, você tem muitas opções (lista de Little e Rubin):
No entanto, se todo o nível geral de preços é o que interessa e não a dinâmica do nível de preços (por exemplo, porque você deseja um deflator em vez de estudar a dinâmica da inflação) a interpolação / extrapolação linear pode ser adequada. Fundamentalmente, como a deflação é rara, se os preços são 100 no tempo te 110 em t + 2, realisticamente os preços em t + 1 estarão em algum lugar e muitos modelos podem levá-lo até lá.[100,110]
Você pode verificar a qualidade da previsão de amostra dentro e fora da amostra para avaliar se o seu método é um bom indicador dos preços ausentes. Dentro do teste de amostra pode ser tão simples quanto perguntar se o é alto no modelo preditivo. Obviamente, você pode fazer uma análise muito mais rica do que isso. Para testes fora da amostra, considere dividir a amostra e calibrar o modelo apenas na primeira metade dos dados e, em seguida, avaliar a qualidade da previsão na segunda metade dos dados.R2
fonte