Eu vi esse artigo no Economist sobre um artigo aparentemente devastador [1] lançando dúvidas sobre "algo como 40.000 estudos publicados [fMRI]". O erro, dizem eles, é por causa de "suposições estatísticas erradas". Li o jornal e vejo que isso é parcialmente um problema com várias correções de comparação, mas não sou especialista em ressonância magnética e acho difícil seguir.
Quais são as suposições errôneas sobre as quais os autores estão falando ? Por que essas suposições são feitas? Quais são as maneiras de fazer essas suposições?
Uma parte do cálculo do envelope diz que 40.000 documentos de ressonância magnética têm mais de um bilhão de dólares em financiamento (salário de estudante de graduação, custos operacionais etc.).
[1] Eklund et al., Falha no cluster: por que as inferências de fMRI quanto à extensão espacial aumentaram as taxas de falsos positivos, PNAS 2016
fonte
Respostas:
Na figura 40000
As notícias são realmente sensacionalistas, mas o jornal é realmente bem fundamentado. Discussões duraram dias no meu laboratório, apesar de tudo uma crítica realmente necessária que faz com que os pesquisadores examinem seu trabalho. Eu recomendo a leitura do seguinte comentário de Thomas Nichols , um dos autores do artigo "Falha de cluster: por que as inferências de ressonância magnética de fMRI em termos espaciais inflacionaram taxas de falso-positivas" (desculpe pela longa citação).
Ele também inclui esta tabela no final:
Basicamente, o SPM (Statistical Parametric Mapping, uma caixa de ferramentas para Matlab) é a ferramenta mais amplamente usada para estudos de neurociência de fMRI. Se você verificar o documento, verá que usar um CDT de P = 0,001 (o padrão) para clusters no SPM fornece quase a taxa de erro familiar esperada.
Os autores até preencheram uma errata devido à redação do artigo:
No chamado Bug
Algumas notícias também mencionaram um bug como a causa da invalidez dos estudos. De fato, uma das ferramentas da AFNI estava deduzindo inferências e isso foi resolvido após a publicação da pré-impressão no arXiv .
Inferência estatística usada na neuroimagem funcional
A neuroimagem funcional inclui muitas técnicas que visam medir a atividade neuronal no cérebro (por exemplo, fMRI, EEG, MEG, NIRS, PET e SPECT). Estes são baseados em diferentes mecanismos de contraste. A RMf baseia-se no contraste dependente do nível de oxigênio no sangue (BOLD). Na fMRI baseada em tarefas, dado um estímulo, os neurônios no cérebro responsáveis pela recepção dessa estimulação começam a consumir energia e isso desencadeia a resposta hemodinâmica alterando o sinal de ressonância magnética ( ) nas proximidades do micro recrutado -vascularização.≈5%
Usando um modelo linear generalizado (GLM), você identifica quais séries temporais do sinal voxel estão correlacionadas com o design do paradigma de seu experimento (geralmente uma série temporal booleana complicada com uma função de resposta hemodinâmica canônica, mas existem variações).
Portanto, este GLM forneceu o quanto cada série temporal voxel se assemelha à tarefa. Agora, digamos que você tenha dois grupos de indivíduos: pacientes e controles normalmente. A comparação das pontuações GLM entre os grupos poderia ser usada para mostrar como a condição dos grupos modula o padrão de "ativação" do cérebro.
A comparação do Voxel entre os grupos é possível, mas devido à função de dispersão de pontos inerente ao equipamento, além de uma etapa de pré-processamento de suavização, não é razoável esperar que os voxels carreguem todas as informações individualmente. A diferença de voxels entre os grupos deve estar, de fato, espalhada pelos voxels vizinhos.
Portanto, é realizada uma comparação em cluster , ou seja, apenas diferenças entre grupos que se formam em clusters são consideradas. Esse limiar de extensão de cluster é a técnica de correção de comparação múltipla mais popular nos estudos de ressonância magnética. O problema está aqui.
No SPM, pelo menos, você deve definir uma taxa FWE nominal e também um limite de definição de cluster (CDT). Basicamente, o SPM encontra voxels altamente correlacionados com a tarefa e, após o limiar com o CDT, os vizinhos são agregados em clusters. Esses tamanhos de clusters são comparados com a extensão esperada do cluster da Random Field Theory (RFT), considerando o conjunto FWER [ 1 ].
Os autores mostraram em [ 1 ] que os tamanhos esperados de cluster da RFT são realmente pequenos quando comparados com os limites de extensão do cluster obtidos no teste de permutação aleatória (RPT).
Em seu artigo mais recente, os dados do estado de repouso (outra modalidade da ressonância magnética, onde os participantes são instruídos a não pensar em nada em particular) foram usados como se as pessoas executassem uma tarefa durante a aquisição da imagem e a comparação do grupo fosse realizada com voxel e cluster -sensato. A taxa de erro falso positivo observada (ou seja, quando você observa diferenças na resposta do sinal a uma tarefa virtual entre grupos) deve ser razoavelmente menor que a taxa esperada de FWE definida em . Refazer esta análise milhões de vezes em grupos amostrados aleatoriamente com diferentes paradigmas mostrou que as taxas de FWE mais observadas são mais altas do que aceitáveis.α=0.05
@amoeba levantou essas duas questões altamente pertinentes nos comentários:
(1) Boa pergunta. Na verdade, revi minhas referências, vamos ver se posso deixar isso mais claro agora. A inferência em termos de cluster é baseada na extensão dos clusters que se formam após a aplicação de um limite primário (o CDT, que é arbitrário ). Na análise secundária, é aplicado um limite no número de voxels por cluster . Esse limite baseia-se na distribuição esperada de extensões de cluster nulas, que podem ser estimadas a partir da teoria (por exemplo, RFT), e define uma FWER nominal. Uma boa referência é [ 2 ].
(2) Obrigado por esta referência, não a vi antes. Flandin e Friston argumentam Eklund et al. corroboraram a inferência da RFT, porque mostraram basicamente que, respeitando suas premissas (em relação à CDT e à suavização), os resultados são imparciais. Sob essa ótica, os novos resultados mostram que práticas diferentes na literatura tendem a influenciar a inferência, pois quebra as premissas da RFT.
Nas múltiplas comparações
Também é sabido que muitos estudos em neurociência não corrigem múltiplas comparações, estimativas variando de 10% a 40% da literatura. Mas esses argumentos não são contabilizados, todos sabem que esses documentos têm validade frágil e possivelmente enormes taxas de falso positivo.
Na FWER superior a 70%
Os autores também relataram um procedimento que produz FWER acima de 70%. Esse procedimento "popular" consiste em aplicar o CDT para manter apenas clusters altamente significativos e depois aplicar outro limite de extensão de cluster escolhido arbitrariamente (em número de voxels). Isso, às vezes chamado de "inferência", tem bases estatísticas fracas e, possivelmente, gera os resultados menos confiáveis.
Relatórios anteriores
Os mesmos autores já haviam relatado problemas com a validade do SPM [ 1 ] em análises individuais. Existem também outros trabalhos citados nessa área.
Curiosamente, vários relatórios sobre análises em nível de grupo e individual com base em dados simulados concluíram que o limite de RFT era, de fato, conservador. Com os recentes avanços no poder de processamento, o RPT pode ser realizado com muito mais facilidade em dados reais, mostrando grandes discrepâncias com o RFT.
ATUALIZAÇÃO: 18 de outubro de 2017
Um comentário sobre "Cluster Failure" veio à tona em junho passado [ 3 ]. Ali Mueller et al. argumentam que os resultados apresentados em Eklund et al podem ser devidos a uma técnica específica de pré-processamento de imagem usada em seu estudo. Basicamente, eles reamostraram as imagens funcionais para uma resolução mais alta antes da suavização (embora provavelmente não seja feito por todos os pesquisadores, esse é um procedimento de rotina na maioria dos softwares de análise de fMRI). Eles também observam que Flandin & Friston não. Na verdade, eu vi Eklund falar no mesmo mês na Reunião Anual da Organização para Mapeamento do Cérebro Humano (OHBM) em Vancouver, mas não me lembro de nenhum comentário sobre esse assunto, mas parece crucial para a pergunta.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. e Knutsson, H. (2012). A análise paramétrica de fMRI com SPM produz resultados válidos? - Um estudo empírico de 1484 conjuntos de dados em repouso. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. e Wager, TD (2014). Limiar baseado em extensão de cluster nas análises de fMRI: armadilhas e recomendações. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE & Lohmann, G. (2017). Comentário: Falha no cluster: Por que as inferências de fMRI quanto à extensão espacial aumentaram as taxas de falsos positivos. Fronteiras em Neurociência Humana, 11.
fonte