Existe alguma abordagem padrão para detectar a mudança covariável entre os dados de treinamento e teste? Isso seria útil para validar a suposição de que existe mudança covariável no meu banco de dados, que contém algumas centenas de imagens.
fonte
Existe alguma abordagem padrão para detectar a mudança covariável entre os dados de treinamento e teste? Isso seria útil para validar a suposição de que existe mudança covariável no meu banco de dados, que contém algumas centenas de imagens.
Existem métodos como o modelo de divergência Kullback-Leibler , o teste de Wald-Wolfowitz para detectar não aleatoriedade e mudança de covariância.
Um teste simples para análise rápida do teste de covariância seria construir um modelo de aprendizado de máquina, onde o modelo é testado repetidamente com a entrada de dados de treinamento e de produção.
No caso, o modelo pode fazer a diferença entre os conjuntos de dados de treinamento e produção; pode ser um sinal de mudança de covariância.
Aprendizagem adaptativa com detecção covariável de turnos para interface cérebro-computador baseada em imagens motoras http://link.springer.com/article/10.1007/s00500-015-1937-5
Métodos de detecção de turnos baseados no modelo EWMA para detectar turnos covariáveis em ambientes não estacionários ( http://www.sciencedirect.com/science/article/pii/S0031320314002878 )
Aqui está um procedimento simples que você pode usar:
Você não fornece muitas pistas sobre quais propriedades das imagens você pode estar considerando, mas parece que o que você deseja medir é a diferença nas distribuições dos conjuntos de treinamento e testes. Um lugar útil para começar seria com a divergência Kullback-Leibler, que é uma medida da diferença de duas distribuições.
O problema da mudança covariável resulta em conjuntos de dados com diferentes estruturas matemáticas subjacentes. Agora, o Manifold Learning estima uma representação de baixa dimensão de dados de alta dimensão, revelando a estrutura subjacente. Muitas vezes, as técnicas de aprendizado múltiplo não são projeções - portanto, diferentes e mais poderosas que o PCA padrão.
Eu usei técnicas de Manifold Learning (por exemplo: IsoMap, MDS, etc) para visualizar (e, se possível, quantificar) a "(des) similaridade" entre os conjuntos de dados de trem e teste.