Em um artigo que estava lendo recentemente, me deparei com o seguinte bit na seção de análise de dados:
A tabela de dados foi então dividida em tecidos e linhas celulares, e as duas subtabelas foram polidas separadamente por mediana (as linhas e colunas foram ajustadas iterativamente para ter mediana 0) antes de serem reunidas em uma única tabela. Finalmente, selecionamos o subconjunto de genes cuja expressão variou pelo menos 4 vezes da mediana nesta amostra definida em pelo menos três das amostras testadas
Devo dizer que realmente não sigo o raciocínio aqui. Eu queria saber se você poderia me ajudar a responder às duas perguntas a seguir:
Por que é desejável / útil ajustar a mediana nos conjuntos de dados? Por que isso deve ser feito separadamente para diferentes tipos de amostras?
Como isso não está modificando os dados experimentais? Essa é uma maneira conhecida de escolher um número de genes / variáveis de um grande conjunto de dados ou é bastante adhoc?
Obrigado,
fonte
Respostas:
Tukey Median Polish, o algoritmo é usado na normalização RMA de microarrays. Como você deve saber, os dados de microarranjos são bastante barulhentos, portanto, eles precisam de uma maneira mais robusta de estimar as intensidades das sondas, levando em consideração as observações de todas as sondas e microarranjos. Este é um modelo típico usado para normalizar intensidades de sondas entre matrizes.
i = 1 , … , I
Onde é o l o g transformada intensidade PM para o i t h sonda sobre o j t h matriz. ε i j são o ruído de fundo e que pode ser assumido que correspondem ao ruído em regressão linear normal. No entanto, uma suposição distributiva em ε pode ser restritiva, portanto, usamos Tukey Median polonês para obter as estimativas para ^ μ i e ^ α j . Essa é uma maneira robusta de normalizar as matrizes, pois queremos separar o sinal, a intensidade devida à sonda, do efeito da matriz,Yeu j l o g Eut h jt h ϵeu j ϵ μEu^ αj^ . Podemos obter o sinal normalizando o efeito do array ^ α j para todos os arrays. Assim, ficamos apenas com os efeitos da sonda mais algum ruído aleatório.α αj^
O link que citei antes usa o polonês mediano de Tukey para estimar os genes diferencialmente expressos ou genes "interessantes", classificando pelo efeito da sonda. No entanto, o artigo é bastante antigo, e provavelmente naquela época as pessoas ainda estavam tentando descobrir como analisar dados de microarranjos. O artigo de métodos bayesianos empíricos não paramétricos de Efron foi publicado em 2001, mas provavelmente pode não ter sido amplamente utilizado.
No entanto, agora entendemos muito sobre microarrays (estatisticamente) e temos quase certeza de sua análise estatística.
Os dados do microarray são bastante barulhentos e o RMA (que usa o polonês médio) é um dos métodos de normalização mais populares, devido à sua simplicidade. Outros métodos populares e sofisticados são: GCRMA, VSN. É importante normalizar, pois o interesse é efeito sonda e não efeito matriz.
Como você espera, a análise poderia ter se beneficiado de alguns métodos que tiram proveito do empréstimo de informações entre genes. Estes podem incluir métodos bayesianos ou bayesianos empíricos. Pode ser que o jornal que você está lendo seja antigo e essas técnicas não estavam disponíveis até então.
Em relação ao seu segundo ponto, sim, eles provavelmente estão modificando os dados experimentais. Mas acho que essa modificação é para uma causa melhor, portanto justificável. A razão de ser
a) Os dados do Microarray são bastante barulhentos. Quando o interesse é o efeito da sonda, a normalização dos dados por RMA, GCRMA, VSN etc. é necessária e pode estar aproveitando qualquer estrutura especial nos dados. Mas eu evitaria fazer a segunda parte. Isso ocorre principalmente porque se não conhecermos a estrutura antecipadamente, é melhor não impor muitas suposições.
b) A maioria dos experimentos de microarranjos é de natureza exploratória, ou seja, os pesquisadores estão tentando restringir alguns conjuntos de genes "interessantes" para análises ou experimentos adicionais. Se esses genes tiverem um sinal forte, modificações como normalizações não devem (substancialmente) afetar os resultados finais.
Portanto, as modificações podem ser justificadas. Mas devo observar que exagerar nas normalizações pode levar a resultados errados.
fonte
Você pode encontrar algumas dicas nas páginas 4 e 5 deste
A vantagem de usar a mediana é a robustez para um pequeno número de discrepantes; a desvantagem é que você está descartando informações potencialmente úteis se não houver discrepâncias.
fonte
Parece que você está lendo um artigo que possui algumas análises de expressão diferencial de genes. Depois de fazer algumas pesquisas envolvendo chips de microarray, posso compartilhar o pouco conhecimento (espero que correto) que eu tenho sobre o uso de polonês médio.
O uso do polimento médio durante a etapa de compactação do pré-processamento de microarrays é uma maneira padrão de livrar dados de outliers com chips apenas de sondas de correspondência perfeita (pelo menos para RMA).
O polonês médio para dados de microarray é onde você tem o efeito de chip e o efeito de sonda como suas linhas e colunas:
para cada conjunto de sondas (composto pelo número n da mesma sonda) em x chips:
onde iv são valores de intensidade
Devido à variabilidade das intensidades da sonda, quase todas as análises de dados de microarranjos são pré-processadas usando algum tipo de correção e normalização de fundo antes da sumarização.
Aqui estão alguns links para os tópicos da lista de discussão da bioC que falam sobre o uso do polonês médio versus outros métodos:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Os dados de tecidos e linhas celulares são geralmente analisados separadamente porque quando as células são cultivadas, seus perfis de expressão mudam drasticamente a partir das amostras de tecido coletadas. Sem ter mais papel, é difícil dizer se o processamento das amostras separadamente era adequado ou não.
As etapas de normalização, correção de segundo plano e sumarização no pipeline de análise são todas modificações dos dados experimentais, mas em seu estado não processado, os efeitos de chip, efeitos de lote, efeitos de processamento ofuscariam qualquer sinal para análise. Esses experimentos com microarrays geram listas de genes candidatos a experimentos de acompanhamento (qPCR, etc) para confirmar os resultados.
Quanto a ser ad hoc, pergunte a 5 pessoas qual diferença de dobra é necessária para que um gene seja considerado diferencialmente expresso e você terá pelo menos três respostas diferentes.
fonte