Tenho uma pergunta que gostaria de fazer para a comunidade. Recentemente, fui convidado a fornecer análises estatísticas para um estudo prognóstico de marcadores tumorais . Eu usei principalmente essas duas referências para guiar minha análise:
McShane LM, et al. Recomendações de relatórios para estudos prognósticos de marcadores tumorais (REMARK). J Natl Cancer Inst. 17 de agosto de 2005; 97 (16): 1180-4.
Simon RM et ai. Usando validação cruzada para avaliar a precisão preditiva dos classificadores de risco de sobrevivência com base em dados de alta dimensão. Breve Bioinform. 2011 maio; 12 (3): 203-14. Epub 2011 15 de fev.
Resumi o estudo e minhas análises abaixo. Eu gostaria de receber comentários, sugestões ou críticas.
Antecedentes do estudo:
Alguns pacientes com câncer X apresentam recaída precoce após o tratamento. O escore clínico prognóstico atualmente utilizado pelos médicos não faz um bom trabalho na previsão de resultados clínicos nesses pacientes. Portanto, seria útil identificar marcadores prognósticos biológicos que agregam valor acima e além desse escore padrão. O objetivo deste estudo é descobrir esse biomarcador.
Métodos de estudo:
Pré-seleção de biomarcadores candidatos
Doze biomarcadores associados ao câncer X foram identificados em um estudo anterior. Tentamos validar a associação entre esses 12 candidatos e o câncer X em uma amostra independente de pacientes / tumores, descrita abaixo.
Validação univariada de biomarcadores candidatos pré-selecionados
Os níveis desses biomarcadores foram medidos em um conjunto de 220 pacientes / tumores.
[Nota: mascarei os dados e os disponibilizei para download público como um arquivo * .csv . O arquivo possui as seguintes colunas: "ID", um identificador exclusivo para cada paciente; “PS”, o escore prognóstico de cada paciente, com 1 indicando bom prognóstico e 2 indicando mau prognóstico; "M1" a "m12", níveis de cada marcador tumoral; "Tempo", em meses; e "evento", em que 0 indica que a observação está censurada e 1 indica que ocorreu falha no tratamento.]
Modelos de regressão Cox univariados com tempo até a morte como variável dependente foram construídos para cada um dos 12 biomarcadores (n = 220 observações, número de eventos = 91).
Risk LCI UCI pValue
1 0.93 0.86 1.02 0.1088
2 0.93 0.88 0.99 0.0215
3 0.99 0.92 1.05 0.6528
4 0.93 0.87 1.00 0.0468
5 0.93 0.88 0.98 0.0055
6 0.97 0.92 1.01 0.1202
7 0.91 0.83 0.99 0.0297
8 0.98 0.90 1.07 0.6972
9 0.99 0.92 1.06 0.7841
10 1.01 0.91 1.11 0.9149
11 0.96 0.87 1.05 0.3837
12 0.90 0.83 0.97 0.0047
Usando um valor-p de limiar de 0,05 / 12 = 0,004, nenhum dos resultados foi significativo.
Análises multivariáveis
Decidiu-se ajustar um modelo aos dados inserindo todos os 12 biomarcadores de uma só vez em um algoritmo de regressão Cox stepwise usando validação cruzada dez vezes. Após a construção de dez modelos nos dez conjuntos de treinamento diferentes, foram construídas curvas ROC dependentes do tempo para permitir a seleção de pontos de corte ideais para identificar dois grupos de pacientes, risco "alto" e "baixo". Pontos de corte que minimizavam “1 - TP + FP” foram selecionados. Esses dez modelos foram solicitados a fazer previsões sobre os pacientes correspondentes nos grupos de validação. Esses pacientes foram então classificados em grupos de risco "alto" e "baixo" e plotados em uma única curva de Kaplan Meier com validação cruzada.
Conclusões
Os intervalos de confiança das curvas de alto e baixo risco se sobrepuseram significativamente, sugerindo que os biomarcadores identificados não eram marcadores prognósticos úteis. Portanto, nosso estudo não identificou nenhuma associação univariada ou multivariada significativa entre esses marcadores e o prognóstico do paciente.
Perguntas para a comunidade
Analisei meus dados da maneira correta?
Se você fosse o estatístico deste estudo, teria feito algo diferente?
Antes de executar as análises de validação, não foram realizados cálculos de tamanho e potência da amostra para determinar o número de amostras a serem incluídas e o tamanho do efeito detectável. Eu gostaria de realizar essas análises agora para orientar estudos futuros. Alguém pode me dizer como fazer isso?
O que realmente me interessa é se esses biomarcadores fornecem informações preditivas acima e além do escore prognóstico clínico. Pelo que entendi, isso implicaria a criação de três modelos diferentes: (1) um modelo apenas com covariáveis clínicas, (2) um modelo de biomarcador apenas com covariáveis e (3) um modelo clínico / biomarcador baseado nos dois tipos de covariáveis. Até agora, criei o modelo 1 (não mostrado acima; também não foi possível diferenciar entre pacientes de alto e baixo risco em nossa amostra) e 2 (mostrado acima). Como 1 e 2 não foram significativos, não criei o modelo 3. Devo fazer isso de alguma maneira?
Quaisquer comentários adicionais sobre preocupações analíticas serão muito apreciados! Fique à vontade para baixar os dados mascarados e dê uma olhada.