Melhor método para criar gráficos de crescimento

10

Eu tenho que criar gráficos (semelhantes aos gráficos de crescimento) para crianças de 5 a 15 anos (apenas 5,6,7 etc; não existem valores fracionários como 2,6 anos) para uma variável de saúde que não seja negativa, contínua e o intervalo de 50 a 150 (com apenas alguns valores fora desse intervalo). Eu tenho que criar curvas de percentil 90, 95 e 99 e também criar tabelas para esses percentis. O tamanho da amostra é de cerca de 8000.

Eu verifiquei e encontrei as seguintes maneiras possíveis:

  1. Encontre quantis e use o método loess para obter uma curva suave desses quantis. O grau de suavidade pode ser ajustado pelo parâmetro 'span'.

  2. Use o método LMS (Lambda-Mu-Sigma) (por exemplo, usando pacotes gamlss ou VGAM em R).

  3. Use regressão quantílica.

  4. Use a média e o DP de cada faixa etária para estimar o percentil para essa idade e criar curvas de percentil.

Qual é a melhor maneira de fazer isso? Por "melhor", quero dizer o método ideal que é o método padrão para a criação de tais curvas de crescimento e seria aceitável para todos. Ou um método mais fácil e mais simples de implementar, que pode ter algumas limitações, mas é um método aceitável e mais rápido. (Por exemplo, usar loess em valores de percentil é muito mais rápido que usar o LMS do pacote gamlss).

Além disso, qual será o código R básico para esse método.

Obrigado pela ajuda.

rnso
fonte
2
Você está pedindo o "melhor", que geralmente fica entre difícil e impossível de discutir definitivamente. (A "melhor" medida de nível já é bastante difícil.) Você claramente vinculou sua pergunta às mudanças de saúde em crianças, mas seus critérios em "melhor" não são explícitos, em particular que tipos ou graus de suavidade são aceitáveis ​​ou inaceitáveis.
Nick Cox
Congratulo-me com a tentativa, mas a) evidentemente não existe; caso contrário, por que existem soluções concorrentes ou por que isso não é evidente na literatura que você está lendo? O interesse neste problema é certamente décadas, se não séculos. Meios mais fáceis: mais fácil de entender, mais fácil de explicar para médicos ou profissionais não-estatísticos em geral, mais fáceis de implementar, ...? Estou sem dúvida parecendo exigente, mas por que você deveria se preocupar com velocidade aqui? Nenhum desses métodos é exigente computacionalmente.
Nick Cox
@ NickCox: Eu editei a pergunta de acordo com seus comentários. Eu aprecio uma resposta real.
rnso
11
Desculpe, mas não trabalho neste campo e acho que sua pergunta é muito difícil de responder. Existem comentários porque as pessoas podem não ser capazes ou não estar dispostas a responder, mas mesmo assim têm algo a dizer. Não escrevo respostas por encomenda.
Nick Cox

Respostas:

6

Existe uma grande literatura sobre curvas de crescimento. Na minha opinião, existem três abordagens "principais". Nos três, o tempo é modelado como um spline cúbico restrito com um número suficiente de nós (por exemplo, 6). Este é um paramétrico mais suave, com excelente desempenho e fácil interpretação.

  1. Modelos clássicos de curva de crescimento (mínimos quadrados generalizados) para dados longitudinais com um padrão de correlação sensível como AR1 em tempo contínuo. Se você puder mostrar que os resíduos são gaussianos, poderá obter MLEs dos quantis usando as médias estimadas e o desvio padrão comum.
  2. Regressão quantílica. Isso não é eficiente para não grande . Embora a precisão não seja ótima, o método faz suposições mínimas (porque as estimativas para um quantil não estão conectadas às estimativas de um quantil diferente) e é imparcial.n
  3. Regressão ordinal. Isso trata contínuo como ordinal para ser robusto, usando modelos semi-paramétricos, como o modelo de chances proporcionais. Nos modelos ordinais, você pode estimar a média e quaisquer quantis, este último apenas se for contínuo.YYY
Frank Harrell
fonte
Quando você usou probabilidades proporcionais, como você acomodou a suposição de OP (assumindo que ela falhou) com tantos níveis de resultado? Obrigado.
Julieth 3/01/15
2
Mesmo se falhar, o modelo pode ter um desempenho melhor do que alguns outros modelos, devido a menos suposições gerais. Ou mude para um dos outros modelos ordinais da família de probabilidades cumulativas, como riscos proporcionais (link prob. Cumulativo log-log).
Frank Harrell
1

Regressão do processo gaussiano . Comece com o kernel exponencial ao quadrado e tente ajustar os parâmetros a olho nu. Mais tarde, se você quiser fazer as coisas corretamente, experimente diferentes kernels e use a probabilidade marginal para otimizar os parâmetros.

Se você quiser mais detalhes do que o tutorial vinculado acima fornece, este livro é ótimo .

Andy Jones
fonte
Obrigado pela sua resposta. Como você classifica a regressão de processo Gaussiana em comparação com outros métodos mencionados. O segundo gráfico gaussiano em scikit-learn.org/0.11/auto_examples/gaussian_process/… parece muito semelhante ao segundo último gráfico nesta página do LOESS (regressão local): princeofslides.blogspot.in/2011/05/… . LOESS é muito mais fácil de executar.
rnso
Pessoalmente, eu prefiro o GPR para qualquer conjunto de dados pequeno o suficiente para permitir que você se ajuste a ele. Além de ser muito "mais agradável" do ponto de vista teórico, é mais flexível, robusto e fornece resultados probabilísticos bem calibrados. Dito tudo isso, se seus dados forem densos e bem comportados, seu público provavelmente não será capaz de dizer a diferença entre LOESS e um GPR, a menos que sejam estatísticos.
Andy Jones
3
Não vejo que esta resposta atenda aos recursos específicos de querer curvas de percentis. A questão é enfaticamente não perguntar qual é uma boa maneira de suavizar em função de ? xyx
Nick Cox
11
@ Nick: Meu conselho pretendido era construir um modelo dos seus dados e depois usá-lo para construir as curvas (suaves) de percentil. Agora que você mencionou, sim, eu perdi completamente o segundo componente (isto é, a pergunta real).
Andy Jones
11
Usar para estabelecer esses limites é uma suposição muito forte (baseada na Normalidade) de que de fato pode ser violada por curvas de crescimento. 1.96
whuber