Tamanho da amostra e métodos de validação cruzada para modelos preditivos de regressão de Cox

Tenho uma pergunta que gostaria de fazer para a comunidade. Recentemente, fui convidado a fornecer análises estatísticas para um estudo prognóstico de marcadores tumorais . Eu usei principalmente essas duas referências para guiar minha análise:

McShane LM, et al. Recomendações de relatórios para estudos prognósticos de marcadores tumorais (REMARK). J Natl Cancer Inst. 17 de agosto de 2005; 97 (16): 1180-4.
Simon RM et ai. Usando validação cruzada para avaliar a precisão preditiva dos classificadores de risco de sobrevivência com base em dados de alta dimensão. Breve Bioinform. 2011 maio; 12 (3): 203-14. Epub 2011 15 de fev.

Resumi o estudo e minhas análises abaixo. Eu gostaria de receber comentários, sugestões ou críticas.

Antecedentes do estudo:

Alguns pacientes com câncer X apresentam recaída precoce após o tratamento. O escore clínico prognóstico atualmente utilizado pelos médicos não faz um bom trabalho na previsão de resultados clínicos nesses pacientes. Portanto, seria útil identificar marcadores prognósticos biológicos que agregam valor acima e além desse escore padrão. O objetivo deste estudo é descobrir esse biomarcador.

Métodos de estudo:

Pré-seleção de biomarcadores candidatos

Doze biomarcadores associados ao câncer X foram identificados em um estudo anterior. Tentamos validar a associação entre esses 12 candidatos e o câncer X em uma amostra independente de pacientes / tumores, descrita abaixo.

Validação univariada de biomarcadores candidatos pré-selecionados

Os níveis desses biomarcadores foram medidos em um conjunto de 220 pacientes / tumores.

[Nota: mascarei os dados e os disponibilizei para download público como um arquivo * .csv . O arquivo possui as seguintes colunas: "ID", um identificador exclusivo para cada paciente; “PS”, o escore prognóstico de cada paciente, com 1 indicando bom prognóstico e 2 indicando mau prognóstico; "M1" a "m12", níveis de cada marcador tumoral; "Tempo", em meses; e "evento", em que 0 indica que a observação está censurada e 1 indica que ocorreu falha no tratamento.]

Modelos de regressão Cox univariados com tempo até a morte como variável dependente foram construídos para cada um dos 12 biomarcadores (n = 220 observações, número de eventos = 91).

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

Usando um valor-p de limiar de 0,05 / 12 = 0,004, nenhum dos resultados foi significativo.

Análises multivariáveis

Decidiu-se ajustar um modelo aos dados inserindo todos os 12 biomarcadores de uma só vez em um algoritmo de regressão Cox stepwise usando validação cruzada dez vezes. Após a construção de dez modelos nos dez conjuntos de treinamento diferentes, foram construídas curvas ROC dependentes do tempo para permitir a seleção de pontos de corte ideais para identificar dois grupos de pacientes, risco "alto" e "baixo". Pontos de corte que minimizavam “1 - TP + FP” foram selecionados. Esses dez modelos foram solicitados a fazer previsões sobre os pacientes correspondentes nos grupos de validação. Esses pacientes foram então classificados em grupos de risco "alto" e "baixo" e plotados em uma única curva de Kaplan Meier com validação cruzada.

Conclusões

Os intervalos de confiança das curvas de alto e baixo risco se sobrepuseram significativamente, sugerindo que os biomarcadores identificados não eram marcadores prognósticos úteis. Portanto, nosso estudo não identificou nenhuma associação univariada ou multivariada significativa entre esses marcadores e o prognóstico do paciente.

Perguntas para a comunidade

Analisei meus dados da maneira correta?

Se você fosse o estatístico deste estudo, teria feito algo diferente?

Antes de executar as análises de validação, não foram realizados cálculos de tamanho e potência da amostra para determinar o número de amostras a serem incluídas e o tamanho do efeito detectável. Eu gostaria de realizar essas análises agora para orientar estudos futuros. Alguém pode me dizer como fazer isso?

O que realmente me interessa é se esses biomarcadores fornecem informações preditivas acima e além do escore prognóstico clínico. Pelo que entendi, isso implicaria a criação de três modelos diferentes: (1) um modelo apenas com covariáveis clínicas, (2) um modelo de biomarcador apenas com covariáveis e (3) um modelo clínico / biomarcador baseado nos dois tipos de covariáveis. Até agora, criei o modelo 1 (não mostrado acima; também não foi possível diferenciar entre pacientes de alto e baixo risco em nossa amostra) e 2 (mostrado acima). Como 1 e 2 não foram significativos, não criei o modelo 3. Devo fazer isso de alguma maneira?

Quaisquer comentários adicionais sobre preocupações analíticas serão muito apreciados! Fique à vontade para baixar os dados mascarados e dê uma olhada.

predictive-models survival epidemiology biostatistics cox-model Alexander
fonte

Você descreveu bem o problema e o configurou bem de várias maneiras. Eu não estava claro sobre a definição de "pontuação prognóstica", mas é muito improvável que uma pontuação de dois níveis seja clinicamente útil. É importante ajustar para todas as variáveis clínicas disponíveis pertinentes, com base na opinião de especialistas ao escolhê-las. Aqui estão algumas oportunidades de melhoria:

A validação cruzada de 10 vezes é instável e precisa ser repetida 100 vezes para obter a precisão adequada (ou use o bootstrap de otimismo Efron-Gong com 400 reamostragens; ambas estão disponíveis no rmspacote R )
Dividir o sinal em "bom" e "ruim" acionado pelas curvas ROC é uma técnica popular, mas não se baseia em bons princípios estatísticos. Qualquer biomarcador que se preze deve ter uma relação dose-resposta, e a divisão em dois grupos muito arbitrários é desnecessária, enganosa e perde informações e poder.
As curvas ROC não têm absolutamente nada a oferecer neste contexto
A escolha de pontos de corte nos biomarcadores é um desastre estatístico. Entre outras coisas, falha em reconhecer que matematicamente, se algum ponto de corte for útil, ele pode estar apenas no back-end, não no covariável, porque o ponto de corte de cada marcador depende do valor absoluto de todos os outros valores de marcador para um paciente.
A regressão passo a passo sem penalização não é confiável. Na sua configuração, não há razão para não colocar todos os marcadores em um modelo e fazer uma taxa de probabilidade $\chi^2$ teste para testar o valor que eles agregam às variáveis clínicas.
Uma boa alternativa ao 5. é fazer uma análise de redundância ou agrupamento variável dos biomarcadores para reduzir seu número antes de relacioná-los ao resultado.
Se o tamanho da amostra for maior, você poderá permitir que todas as variáveis entrem no modelo de maneira não linear, usando splines de regressão. Ocasionalmente, permitir que um biomarcador seja suave e não linear dobra seu valor sobre a linearidade forçada.
Deixe que a probabilidade do log, que é uma regra de pontuação ideal (a probabilidade penalizada seja ainda melhor), faça seu trabalho. Não gaste tempo com regras inadequadas de pontuação.
Considere usar o "índice de adequação", com base na probabilidade do log, para descrever a utilidade dos biomarcadores, conforme descrito no meu livro Regression Modeling Strategies .

Frank Harrell
fonte