Correlação de variáveis ​​clínicas contínuas e dados de expressão gênica

8

Nas análises de classificação SVM (núcleo linear) de um conjunto de dados de expressão gênica (~ 400 variáveis ​​/ genes) para ~ 25 cada um dos casos e controles, acho que os classificadores baseados em expressão gênica têm características de desempenho muito boas. Os casos e controles não diferem significativamente para várias variáveis ​​clínicas / demográficas categóricas e contínuas (de acordo com os testes t ou exato de Fisher), mas diferem significativamente para a idade.

Existe uma maneira de mostrar que os resultados da análise de classificação são ou não são influenciados pela idade?

Estou pensando em reduzir os dados de expressão gênica para componentes principais e fazer uma análise de correlação de Spearman dos componentes em relação à idade.

Esta é uma abordagem razoável? Como alternativa, posso verificar se há correlação entre os valores de idade e probabilidade de associação obtidos na análise SVM.

Obrigado.

user4045
fonte
1
Este é um estudo de caso-controle? Ou estudo de coorte? Por que existe uma diferença de idade (esquema de amostragem? Patomecanismo?)? A idade é a idade do diagnóstico? Ou é uma doença crônica e a idade é a idade atual para colher amostras de tecido para análise de expressão gênica? Sabe-se que a idade está relacionada à doença? O efeito da idade na expressão gênica é mais o efeito do tempo desde o nascimento ou desde o diagnóstico? --- Eu precisaria das respostas para essas perguntas para ver sua pergunta se "os resultados da análise de classificação são ou não são influenciados pela idade?" na perspectiva adequada.
precisa saber é o seguinte
Este é um estudo retrospectivo sobre a expressão de microRNA no sangue e câncer de pulmão. Os casos têm câncer de pulmão. Os controles não foram selecionados e foram escolhidos da população de pacientes que compareceu a uma clínica de rastreamento de câncer de pulmão, geralmente devido a um histórico de tabagismo. A correspondência por idade, sexo etc. não foi realizada ao selecionar casos e controles. O câncer de pulmão geralmente é diagnosticado após os 45-50 anos de idade. Não se sabe se a expressão do microRNA no sangue é afetada pelo câncer de pulmão, mas algumas outras doenças afetam a expressão.
usar o seguinte comando
O efeito da idade na expressão do microRNA no sangue é desconhecido. A idade média (e desvio padrão) dos casos e controles do estudo é de 71 (7) e 60 (9) anos, respectivamente.
user4045
Quando você diz "influenciado pela idade", o que exatamente você quer dizer? Aqui estão duas possibilidades. Uma possibilidade é que seus microarrays não contenham marcadores de doenças. Mas eles contêm informações sobre a idade e, como no seu caso, as populações doentes e de controle são de diferentes faixas etárias, você obtém a ilusão de um bom desempenho de classificação. Outra possibilidade é que os microarrays contenham marcadores de doenças e, além disso, esses marcadores são exatamente o que o SVM foca. No entanto, como em seus dados as idades são diferentes, ainda há correlação entre idade e categoria.
SheldonCooper
@ SheldonCooper: Certo, e quero saber se podemos ou não descobrir qual das duas possibilidades é essa. Caso contrário, podemos estimar aproximadamente o valor extra que os marcadores genéticos fornecem ao longo da idade? O classificador SVM possui boas características de desempenho (precisão nas validações cruzadas internas> 90% e AUC> 0,95). A AUC na análise ROC da idade é de 0,82.
user4045

Respostas:

2

Existem pelo menos duas possibilidades para esses dados. Uma possibilidade é que seus microarrays não contenham marcadores de doenças. Mas eles contêm informações sobre a idade e, como no seu caso, as populações doentes e de controle são de diferentes faixas etárias, você obtém a ilusão de um bom desempenho de classificação. Outra possibilidade é que os microarrays contenham marcadores de doenças e, além disso, esses marcadores são exatamente o que o SVM foca.

Parece que os principais componentes dos dados podem estar correlacionados com a idade em ambas as possibilidades. No primeiro caso, será porque idade é o que os dados expressam. No segundo caso, será porque a doença é o que os dados expressam, e essa doença está correlacionada com a idade (para o seu conjunto de dados). Não acho que exista uma maneira fácil de analisar o valor da correlação e concluir qual é o caso.

Eu poderia pensar em várias maneiras de avaliar o efeito de maneira diferente. Uma opção é dividir seu conjunto de treinamento em grupos de mesma idade. Nesse caso, para as idades 'jovens', a classe normal terá mais exemplos de treinamento do que a classe da doença e vice-versa para as idades mais antigas. Mas, desde que haja exemplos suficientes, isso não deve ser um problema. Outra opção é fazer o mesmo com os conjuntos de testes, ou seja, verificar se o classificador tende a dizer 'doente' com mais frequência para pacientes mais velhos. Ambas as opções podem ser difíceis, pois você não tem muitos exemplos.

Mais uma opção é treinar dois classificadores. No primeiro, o único recurso será a idade. Parece que isso tem uma AUC de 0,82. No segundo, haverá idade e os dados do microarray. (Parece que atualmente você treina um classificador diferente que usa apenas os dados do microarray e fornece AUC 0,95. A adição explícita do recurso de idade provavelmente melhora o desempenho, portanto a AUC será ainda mais alta.) Se o segundo classificador tiver um desempenho melhor do que o primeiro, indica que a idade não é a única coisa interessante nesses dados. Com base no seu comentário, a melhoria na AUC é de 0,13 ou mais, o que parece justo.

SheldonCooper
fonte
Obrigado pelas várias sugestões. Acho que você está certo que verificar a correlação da idade com os principais componentes não fornece uma resposta. Fiz essa análise e existem boas correlações (Spearman r> 0,5) para cada um dos três primeiros PCs (eles juntos contribuem para ~ 55% da variação). Há também uma boa correlação da idade com os valores de probabilidade da análise SVM. Para as duas primeiras opções sugeridas, preciso verificar se há amostras suficientes e como proceder (eu uso o LOOCV e o Monte Carlo CV de 1000 iterações com divisão 4: 1 para treinamento e teste).
user4045
Em relação ao ROC usando dados de idade e microarray, tentarei. Um aumento na AUC de 0,95 (apenas dados de microarrays) sugerirá que os dados de expressão possuem informações específicas da doença que são independentes da idade. A ausência de um aumento, no entanto, não significará nada, pois os dados da expressão são afetados pela idade. Direita?
user4045
Você já tem um aumento na AUC, de 0,82 para a idade apenas para 0,95 para o microarray. É isso que eu acho importante. Se você aumentar ainda mais, ótimo. Se você não conseguir mais aumento, está certo de que isso não significa nada. A parte importante é que você tem um aumento de 0,82 para 0,95.
SheldonCooper
Em uma nova análise, com a idade adicionada como variável ao conjunto de dados da expressão, a AUC aumenta ~ 0,04. Acho que não se pode concluir nada disso.
usar o seguinte comando
A nova AUC (para idade + microarray) é 0,99 ou 0,86?
SheldonCooper