O método "A" descreve amostras biológicas usando "impressões digitais" multivariadas que consistem em cerca de 30 variáveis diferentes. Diferentes variáveis mostram diferentes distribuições típicas e muitas delas se correlacionam intimamente. Por experiência anterior, presume-se que não possamos transformar muitas das variáveis em distribuição normal.
O método "B" foi projetado para ser uma versão aprimorada do método "A" e desejamos comparar a repetibilidade desses dois métodos. Se estivéssemos lidando com uma variável única, realizaríamos análises independentes de várias amostras e usaríamos o ANOVA para comparar a variabilidade entre métodos e entre métodos. Mas aqui estamos lidando com saídas multivariadas e não desejamos realizar uma análise por variável. Quais são as abordagens corretas para esta pergunta?
Resolução
A resposta por do gui11aume resposta , fornece informação útil e valioso. Vou adaptar o "aplicativo a jusante" da resposta de gui11aume, seguida por 7 análises unidirecionais, conforme sugerido por AdamO.
Respostas:
Isso me lembra o diagnóstico de câncer, em que as antigas assinaturas de expressão gênica são substituídas por novas, que supostamente deveriam ser melhores. Mas como mostrar que eles são melhores?
Aqui estão algumas sugestões para comparar a repetibilidade dos métodos.
1. Use a análise de co-inércia (CIA).n observações. O primeiro par de componentes principais deve ser fortemente correlacionado (se os métodos realmente medirem a mesma coisa). Se o método B for melhor, a variação residual deve ser menor que a variação residual do método A. Com essa abordagem, você aborda a concordância dos métodos e sua discordância, que você interpreta como ruído.
A CIA deve ser mais anunciada, infelizmente não é amplamente usada (nenhuma página da Wikipedia, por exemplo). A CIA é um método de duas tabelas que trabalha com o mesmo princípio da análise canônica (CA), que consiste em procurar um par de pontuações lineares com correlação máxima entre dois conjuntos de medições multidimensionais. Sua vantagem sobre a CA é que você pode fazer isso mesmo se tiver mais dimensões do que observações. Você poderia medir ambos os métodos nas mesmas amostras para obter duas mesas acopladas de 30 colunas e
2. Use uma distância .
Você pode usar a distância euclidiana em 30 dimensões entre o teste e o reteste para medir a repetibilidade de um método. Você gera uma amostra dessa pontuação para cada método e pode comparar as amostras com o teste de Wilcoxon.
3. Use o aplicativo downstream.
Você provavelmente está recebendo essas impressões digitais para tomar uma decisão ou classificar pacientes ou material biológico. Você pode contar os acordos versus discordâncias entre testes e retestes para ambos os métodos e compará-los com o teste de Wilcoxon.
O método 3 é o mais simples, mas também o mais prático. Mesmo para entradas de alta dimensão, as decisões geralmente são bastante simples. E, por mais complexo que seja o nosso problema, lembre-se de que a estatística é a ciência da decisão.
Em relação à pergunta em seu comentário.
A redução da dimensionalidade, por mais robusta que seja, será associada a uma perda de variação. Se existe uma maneira de transformar sua impressão digital multivariada em uma única pontuação, capturando quase toda a sua variação, com certeza, essa é de longe a melhor coisa a fazer. Mas então por que a impressão digital é multivariada em primeiro lugar?
No contexto do OP, assumi que a impressão digital é multivariada precisamente porque é difícil reduzir ainda mais sua dimensionalidade sem perder informações. Nesse caso, sua repetibilidade em uma única pontuação não precisa ser um bom proxy para a repetibilidade geral, porque você pode negligenciar a maioria da variação (quase 29/30 no pior caso).
fonte
Suponho da sua pergunta e comente que as 30 variáveis de saída não podem (facilmente) ou não devem ser transformadas em uma única variável.
Uma idéia para lidar com os dados de é que você pode fazer a regressão de e vice-versa. O conhecimento adicional (por exemplo, que a variável no conjunto A corresponde à variável também no conjunto B) pode ajudar a restringir o modelo de mapeamento e / ou com a interpretação.X A ( n × p A ) ↦ X B ( n × p B ) iiXA(n×pA)↔XB(n×pB) XA(n×pA)↦XB(n×pB) i i
Então, e o PCA de múltiplos blocos (ou -PLS) que leva essa ideia adiante? Para esses métodos, ambas as impressões digitais multivariadas para as mesmas amostras (ou mesmos indivíduos) são analisadas juntas como variáveis independentes, com ou sem um terceiro bloco dependente.
R. Brereton: "Quimometria para reconhecimento de padrões" discute algumas técnicas no capítulo anterior ("Comparando padrões diferentes") e pesquisar no Google o levará a vários artigos, além de introduções. Observe que suas situações parecem semelhantes a problemas nos quais, por exemplo, medições espectroscópicas e genéticas são analisadas juntas (duas matrizes com uma correspondência em linha, em vez de analisar, por exemplo, séries temporais de espectros nos quais um cubo de dados é analisado).
Aqui está um artigo que lida com a análise de blocos múltiplos: Sahar Hassani: Análise de dados ômicos: ferramentas de interpretação e validação gráfica em métodos de blocos múltiplos .
Além disso, talvez este seja um bom ponto de partida para outra direção: Hoefsloot et.al., análise de dados de vários conjuntos: análise simultânea de componentes ANOVA e métodos relacionados, em: quimiometria abrangente - análise de dados químicos e bioquímicos (não tenho acesso a ele , só vi o resumo)
fonte
30 análises unidirecionais são certamente uma opção e seriam o tipo de análise "tabela 2" ideal, no qual um desempenho geral é resumido de maneira lógica. Pode ser que o método B produz os 20 primeiros fatores com precisão ligeiramente melhorada, enquanto os 10 últimos são muito mais variáveis. Você tem a questão da inferência usando um espaço parcialmente ordenado: certamente se todos os 30 fatores são mais precisos em B, então B é um método melhor. Mas há uma área "cinzenta" e com o grande número de fatores, é quase garantido que ele apareça na prática.
Se o objetivo desta pesquisa é chegar a uma única análise, é importante considerar o peso de cada resultado e sua aplicação de terminal. Se essas 30 variáveis forem usadas na classificação, previsão e / ou agrupamento de dados observacionais, gostaria de ver a validação desses resultados e uma comparação de A / B na classificação (usando algo como tabelas de estratificação de risco ou viés percentual médio) , previsão (usando o MSE) e cluster (usando algo como validação cruzada). Essa é a maneira correta de lidar com a área cinza na qual você não pode dizer que B é melhor analiticamente, mas funciona muito melhor na prática.
fonte
Vou tentar uma ANOVA multivariada baseada em testes de permutação ( PERMANOVA ). Uma análise de ordenação (baseada no resultado da análise do comprimento do gradiente) também pode ajudar.
fonte
Se você pudesse assumir a normalidade multivariada (o que você disse que não podia), poderia fazer um teste de igualdade de vetores médios de Hotelling T2 para ver se podia reivindicar diferenças entre distribuições ou não. No entanto, embora você não possa fazer isso, ainda é possível comparar teoricamente as distribuições para ver se elas diferem muito. Divida o espaço 30 dimensional em grades retangulares. Use-os como 30 caixas dimensionais. Conte o número de vetores que caem em cada compartimento e aplique um teste do qui quadrado para ver se as distribuições têm a mesma aparência. O problema com esta sugestão é que ela requer selecionar criteriosamente os compartimentos para cobrir os pontos de dados de maneira apropriada. Além disso, a maldição da dimensionalidade dificulta a identificação de diferenças entre as distribuições multivariadas sem ter um número muito grande de pontos em cada grupo. Eu acho que as sugestões que gui11aume deu são sensatas. Eu não acho que os outros são. Como comparar as distribuições não é viável em 30 dimensões com uma amostra típica, alguma forma de comparação válida dos vetores médios parece-me apropriada.
fonte