Eu tenho duas séries de dados que traçam a idade média na morte ao longo do tempo. Ambas as séries demonstram um aumento da idade da morte ao longo do tempo, mas uma muito menor que a outra. Quero determinar se o aumento na idade de morte da amostra inferior é significativamente diferente do da amostra superior.
Aqui estão os dados , ordenados por ano (inclusive de 1972 a 2009), arredondados para três casas decimais:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Ambas as séries não são estacionárias - como posso comparar as duas, por favor? Estou usando STATA. Qualquer conselho seria gratamente recebido.
time-series
correlation
stata
Matt Hurley
fonte
fonte
Respostas:
Esta é uma situação simples; vamos continuar assim. A chave é se concentrar no que importa:
Obtendo uma descrição útil dos dados.
Avaliando desvios individuais dessa descrição.
Avaliando o possível papel e influência do acaso na interpretação.
Manutenção da integridade e transparência intelectual.
Ainda existem muitas opções e muitas formas de análise serão válidas e eficazes. Vamos ilustrar uma abordagem aqui que pode ser recomendada por sua aderência a esses princípios fundamentais.
Para manter a integridade, vamos dividir os dados em duas partes: as observações de 1972 a 1990 e as de 1991 a 2009 (19 anos em cada). Ajustaremos os modelos ao primeiro semestre e, em seguida, veremos como os ajustes funcionam na projeção do segundo semestre. Isso tem a vantagem adicional de detectar alterações significativas que podem ter ocorrido durante o segundo semestre.
Para obter uma descrição útil, precisamos (a) encontrar uma maneira de medir as mudanças e (b) ajustar o modelo mais simples possível apropriado para essas mudanças, avaliá-lo e ajustar iterativamente os mais complexos para acomodar desvios dos modelos simples.
(a) Você tem muitas opções: pode ver os dados brutos; você pode ver as diferenças anuais deles; você pode fazer o mesmo com os logaritmos (para avaliar alterações relativas); você pode avaliar anos de vida perdidos ou expectativa de vida relativa (RLE); ou muitas outras coisas. Após algumas considerações, decidi considerar o RLE, definido como a razão da expectativa de vida na Coorte B em relação à coorte A. (de referência). Felizmente, como mostram os gráficos, a expectativa de vida na Coorte A está aumentando regularmente em um estado estável. moda ao longo do tempo, de modo que a maior parte da variação aleatória no RLE se deva a alterações na Coorte B.
(b) O modelo mais simples possível para começar é uma tendência linear. Vamos ver como isso funciona.
Os pontos azuis escuros neste gráfico são os dados retidos para ajuste; os pontos dourados claros são os dados subsequentes, não utilizados para o ajuste. A linha preta é a mais adequada, com uma inclinação de 0,009 / ano. As linhas tracejadas são intervalos de previsão para valores futuros individuais.
No geral, o ajuste parece bom: o exame de resíduos (veja abaixo) não mostra mudanças importantes em seus tamanhos ao longo do tempo (durante o período de dados de 1972-1990). (Há alguma indicação de que eles tendiam a ser maiores no início, quando as expectativas de vida eram baixas. Poderíamos lidar com essa complicação sacrificando alguma simplicidade, mas é improvável que os benefícios para estimar a tendência sejam ótimos.) Há apenas a menor sugestão de correlação serial (exibida por algumas séries de resíduos positivos e séries de resíduos negativos), mas claramente isso não é importante. Não há discrepantes, o que seria indicado por pontos além das faixas de previsão.
A única surpresa é que, em 2001, os valores caíram repentinamente na faixa de previsão mais baixa e permaneceram lá: algo repentino e grande aconteceu e persistiu.
Aqui estão os resíduos, que são os desvios da descrição mencionada anteriormente.
Como queremos comparar os resíduos com 0, as linhas verticais são desenhadas no nível zero como um auxílio visual. Novamente, os pontos azuis mostram os dados usados para o ajuste. Os de ouro claro são os resíduos dos dados que caem perto do limite de previsão mais baixo, após 2000.
A partir desta figura, podemos estimar que o efeito da mudança 2000-2001 foi de cerca de -0,07 . Isso reflete uma queda repentina de 0,07 (7%) de uma vida útil completa na Coorte B. Após essa queda, o padrão horizontal de resíduos mostra que a tendência anterior continuou, mas no novo nível mais baixo. Essa parte da análise deve ser considerada exploratória : não foi planejada especificamente, mas ocorreu devido a uma comparação surpreendente entre os dados retidos (1991-2009) e a adequação ao restante dos dados.
Outra coisa - mesmo usando apenas os 19 anos iniciais de dados, o erro padrão da inclinação é pequeno: é apenas 0,0009, apenas um décimo do valor estimado de 0,009. A estatística t correspondente de 10, com 17 graus de liberdade, é extremamente significativa (o valor de p é menor que ); isto é, podemos ter certeza de que a tendência não se deve ao acaso. Essa é uma parte de nossa avaliação do papel do acaso na análise. As outras partes são os exames dos resíduos.10- 7
Parece não haver razão para ajustar um modelo mais complicado a esses dados, pelo menos não com o objetivo de estimar se há uma tendência genuína no RLE ao longo do tempo: existe um. Poderíamos ir além e dividir os dados em valores anteriores a 2001 e posteriores a 2000, a fim de refinar nossas estimativasdas tendências, mas não seria completamente honesto conduzir testes de hipóteses. Os valores de p seriam artificialmente baixos, porque os testes de divisão não foram planejados com antecedência. Mas como um exercício exploratório, essa estimativa é boa. Aprenda tudo o que puder com seus dados! Apenas tome cuidado para não se enganar com o ajuste excessivo (o que é quase certo de acontecer se você usar mais de meia dúzia de parâmetros ou usar técnicas automatizadas de ajuste) ou bisbilhotagem de dados: fique atento à diferença entre confirmação formal e informal (mas valiosa) exploração de dados.
Vamos resumir:
Selecionando uma medida apropriada da expectativa de vida (RLE), mantendo metade dos dados, ajustando um modelo simples e testando esse modelo com relação aos dados restantes, estabelecemos com alta confiança que : houve uma tendência consistente; esteve próximo de linear durante um longo período de tempo; e houve uma queda súbita e persistente no RLE em 2001.
Nosso modelo é surpreendentemente parcimonioso : requer apenas dois números (uma inclinação e uma interceptação) para descrever os dados antigos com precisão. Precisa de um terço (a data do intervalo, 2001) para descrever uma saída óbvia, mas inesperada, dessa descrição. Não há discrepantes em relação a esta descrição de três parâmetros. O modelo não será substancialmente aprimorado, caracterizando a correlação serial (o foco das técnicas de séries temporais em geral), tentando descrever os pequenos desvios individuais (resíduos) exibidos ou introduzindo ajustes mais complicados (como adicionar um componente de tempo quadrático) ou modelar alterações nos tamanhos dos resíduos ao longo do tempo).
A tendência foi de 0,009 RLE por ano . Isso significa que a cada ano que passa, a expectativa de vida na Coorte B recebe 0,009 (quase 1%) de uma vida útil normal esperada completa. Ao longo do estudo (37 anos), isso equivaleria a 37 * 0,009 = 0,34 = um terço de uma melhoria completa da vida. O revés em 2001 reduziu esse ganho para cerca de 0,28 de uma vida útil completa, de 1972 a 2009 (embora, durante esse período, a expectativa de vida total tenha aumentado 10%).
Embora esse modelo possa ser melhorado, provavelmente precisará de mais parâmetros e é improvável que a melhoria seja ótima (como atesta o comportamento quase aleatório dos resíduos). No geral, devemos nos contentar em chegar a uma descrição tão compacta, útil e simples dos dados para tão pouco trabalho analítico.
fonte
Eu acho que a resposta do whuber é direta e simples para uma pessoa que não seja da série temporal como eu entender. Eu baseio o meu no dele. Minha resposta está em R e não em Stata, pois não os conheço tão bem.
Eu me pergunto se a pergunta está realmente nos pedindo para examinar se o aumento absoluto de um ano para outro é o mesmo nas duas coortes (em vez de relativas). Eu acho que isso é importante e ilustro da seguinte forma. Considere o seguinte exemplo de brinquedo:
Aqui temos duas coortes, cada uma com um aumento constante de 1 ano por ano na sobrevida média. Portanto, a cada ano, as duas coortes neste exemplo aumentam na mesma quantidade absoluta, mas o RLE fornece o seguinte:
O que obviamente tem uma tendência ascendente, e o valor p para testar a hipótese de que o gradiente da linha 0 é 2,2e-16. A linha reta ajustada (vamos ignorar que essa linha parece curva) tem um gradiente de 0,008. Portanto, embora ambas as coortes tenham o mesmo aumento absoluto em um ano, o RLE tem uma inclinação ascendente.
Portanto, se você usar o RLE quando desejar procurar aumentos absolutos, rejeitará inadequadamente a hipótese nula.
Usando os dados fornecidos, calculando a diferença absoluta entre as coortes que obtemos:
O que implica que a diferença absoluta entre a sobrevida média está diminuindo gradualmente (ou seja, a coorte com baixa sobrevida está gradualmente se aproximando da coorte com a melhor sobrevida).
fonte
Essas duas séries temporais parecem ter uma tendência determinística. Essa é uma relação que você obviamente deseja remover antes de uma análise mais aprofundada. Pessoalmente, eu procederia da seguinte forma:
1) Eu executaria uma regressão para cada série temporal contra uma constante e uma hora, e calcularia o residual para cada série temporal.
2) Tomando as duas séries de resíduos calculadas na etapa acima, eu executaria uma regressão linear simples (sem um termo constante) e examinaria a estatística t, valor p, e decidira se existe ou não mais dependência entre as duas séries.
Essa análise assume o mesmo conjunto de suposições que você faz em uma regressão linear.
fonte
Em alguns casos, conhece-se um modelo teórico que pode ser usado para testar sua hipótese. No meu mundo, esse "conhecimento" geralmente está ausente e é preciso recorrer a técnicas estatísticas que podem ser classificadas como análise exploratória de dados, que resume o que se segue. muitas vezes enganosas, na medida em que os falsos positivos podem ser facilmente encontrados. Uma das primeiras análises disso é encontrada em Yule, GU, 1926, "Por que às vezes obtemos correlações sem sentido entre séries temporais? Um estudo sobre amostragem e a natureza das séries temporais", Journal of the Royal Statistical Society 89, 1– 64 Como alternativa, quando uma ou mais séries foram afetadas por atividades excepcionais (consulte whuber " súbito revés na Coorte B em 2001) que pode efetivamente esconder relacionamentos significativos. Agora, a detecção de um relacionamento entre séries temporais se estende a examinar não apenas os relacionamentos contemporâneos, mas também possíveis relacionamentos atrasados. Continuando, se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Agora, a detecção de um relacionamento entre séries temporais se estende a examinar não apenas os relacionamentos contemporâneos, mas também possíveis relacionamentos atrasados. Continuando, se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Agora, a detecção de um relacionamento entre séries temporais se estende a examinar não apenas os relacionamentos contemporâneos, mas também possíveis relacionamentos atrasados. Continuando, se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil":
Y (T) = -194,45
+ [X1 (T)] [(+ 1,2296+ 1,6523B ** 1)] COHORTA
o que sugere uma relação contemporânea de 1,2936 e um efeito defasado de 1,6523. Observe que houve vários anos em que atividades incomuns foram identificadas viz. (1975,2001,1983,1999,1976,1985,1984,1991 e 1989). Os ajustes para os anos nos permitem avaliar mais claramente a relação entre essas duas séries.
Em termos de fazer uma previsão
MODELO EXPRESSO COMO UM XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ constante
O CONSTANTE DO LADO DIREITO É: -194,45
COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340
COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835
I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963
Quatro coeficientes são tudo o que é necessário para fazer uma previsão e, é claro, uma previsão para a Coorte A no período 39 (78.228616) obtido do modelo ARIMA para Cohorta.
fonte
Esta resposta contém alguns gráficos
fonte