Usando regressão linear segmentada como evidência para o limite da vida humana

8

A Nature publicou este ano o seguinte artigo: Evidências de um limite para a vida útil humana 1 , na qual os autores argumentam que "os resultados sugerem fortemente que a vida útil máxima dos seres humanos é fixa e sujeita a restrições naturais".

Uma das análises estatísticas deste artigo já foi analisada em alguns sites, incluindo o artigo da Nature que está errado no limite de 115 anos de vida humana e as evidências de um limite para a revisão eficaz por pares , uma vez que apareceu em algumas mídias populares.

O estudo é baseado, entre várias coisas, em dados de bancos de dados detalhando a idade máxima anual de morte. Entre suas análises, está incluída a seguinte figura :

http://www.nature.com/nature/journal/v538/n7624/images/nature19793-sf6.jpg

Basicamente, os autores argumentam que há um ponto de interrupção e, portanto, eles realizaram uma regressão segmentada antes de 1995 e depois desse ponto em diante. A regressão é usada como evidência para o limite da vida humana.

Isso faz sentido? Caso contrário, qual método poderia ser melhor empregado para estudar esses dados?

[1] Dong, Xiao, Brandon Milholland e Jan Vijg. "Evidência de um limite para a vida útil humana." Nature 538.7624 (2016): 257-259.

Firebug
fonte
4
A regressão linear para extremos parece estranha ... e, evidentemente, eles usaram uma regressão segmentada descontínua, o que é incomum ...
kjetil b halvorsen
3
@kjetilbhalvorsen concordou. Extrema são exemplos bem conhecidos de dados que violam suposições normais bastante descontroladamente. Eu me pergunto como uma rotina de probabilidade máxima para os dados de Gumbel teria se comportado ... usando a técnica apropriadamente denominada de análise de sobrevivência .
AdamO

Respostas:

2

Antes de tudo, vamos extrair manualmente os valores da Figura 2 original e plotar os dados sem cores ou linhas de regressão influenciando nossa primeira inspeção visual dos dados brutos.

year <- c(1968, 1970, 1973, 1975, 1978, 1979, 1980, 1981, 1982, 
          1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 
          1992, 1994, 1993, 1995, 1996, 1998, 1997, 1999, 2000, 
          2001, 2002, 2003, 2004, 2005, 2006)
age <- c(111, 111, 112, 111, 111, 110, 111, 113, 113, 113, 111, 
         114, 113, 114, 114, 112, 112, 112, 114, 115, 117, 112, 
         114, 115, 121, 119, 114, 115, 115, 114, 113, 114, 112)

plot(year,age,xlab="Year",
     ylab="Yearly maximum reported age at death (years)", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1960,2010))

Nós obtemos:

idade do gráfico de dispersão versus ano

E vamos fazer o mesmo com os dados da Figura 6 (conforme apresentado na pergunta acima):

age <- c(113, 109, 109, 110, 113, 109, 110, 111, 111, 111, 
         112, 112, 113, 111, 111, 113, 113, 113, 114, 115, 
         113, 114, 122, 119, 117, 114, 115, 115, 114, 114, 
         115, 116, 115, 115, 114, 114, 116, 116, 117)
year <- c(1954, 1957, 1958, 1958, 1963, 1964, 1965, 1967,
          1968, 1970, 1975, 1972, 1976, 1976, 1977, 1980, 
          1981, 1982, 1984, 1985, 1986, 1987, 1997, 1998, 
          1998, 1999, 2001, 2001, 2002, 2003, 2006, 2006,
          2008, 2007, 2010, 2011, 2011, 2012, 2015)

plot(year,age,xlab="Year",
     ylab="MRAD from GRG", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1950,2020))

insira a descrição da imagem aqui

Parece que um modelo de regressão linear simples seria o candidato natural desafiando o modelo de ponto de mudança menos parcimonioso que os autores propuseram. De fato, Philipp Berens e Tom Wallis fizeram isso e publicaram sua re-análise no github: https://github.com/philippberens/lifespan

Brandmaier
fonte
1
Você parece ter cometido um erro ao obter os valores da figura - faltam dados há alguns anos.
Scortchi - Reinstate Monica
Hmm ... Segundo Berens & Wallis , os autores explicaram que "o" desaparecido "se deve ao fato de as pessoas do MRAD serem mais jovens que Jeanne Calment, que detinham o recorde da pessoa mais velha do mundo na época". Portanto, os dados de outras pessoas, cada um dos quais foi o mais velho a morrer no ano de sua morte, são omitidos devido à sobrevivência contínua de alguém mais velho. Parece uma receita para um ponto de interrupção!
Scortchi - Restabelece Monica
2
Na primeira versão do post, eu incluí apenas a Figura 2. Adicionei dados da Figura 6, na qual podemos ver a lacuna discutida.
Brandmaier
Desculpa! Eu estava assumindo que era a mesma figura da pergunta.
Scortchi - Reinstate Monica
4

Eu acho que a natureza das conclusões é totalmente inútil. Vemos entre 1950 e 2015 uma tendência crescente, seguida por uma tendência decrescente. É uma falácia clássica de aplicar dados que sugerem uma hipótese diferente da testada e de apresentá-los como tal. Com esses dados, uma regressão segmentada pode interpolar e prever que, em 1995, o máximo local de vida útil era de cerca de 115 anos independentemente do erro que eles estimam a partir da regressão segmentada. Isso não impede que as tendências 2020 ou 2030 substituam esse valor.±

  1. O conceito de expectativa de vida natural entra em conflito com a preponderância da pesquisa em envelhecimento, genética e telômeros.
  2. É necessário um projeto experimental para lidar com o tempo de vida humano natural, usando a tecnologia "body on a chip".
  3. 50 anos é absolutamente trivial no curso da história humana. Houve muitos pontos no passado em que uma tendência ascendente na vida útil foi seguida por uma descendente.
  4. Dados como os apresentados podem ter sido simulados a partir de um modelo não linear com descontinuidades e / ou assíntotas que são incomensuráveis.
  5. Como o objetivo do modelo é previsão, são necessárias premissas distributivas e correção do modelo médio, e nem (ao que parece) elas foram verificadas nem atendidas.
AdamO
fonte