Detecção de turno covariada

7

Existe alguma abordagem padrão para detectar a mudança covariável entre os dados de treinamento e teste? Isso seria útil para validar a suposição de que existe mudança covariável no meu banco de dados, que contém algumas centenas de imagens.

Daniel Wonglee
fonte

Respostas:

3

Existem métodos como o modelo de divergência Kullback-Leibler , o teste de Wald-Wolfowitz para detectar não aleatoriedade e mudança de covariância.

Um teste simples para análise rápida do teste de covariância seria construir um modelo de aprendizado de máquina, onde o modelo é testado repetidamente com a entrada de dados de treinamento e de produção.

No caso, o modelo pode fazer a diferença entre os conjuntos de dados de treinamento e produção; pode ser um sinal de mudança de covariância.

Dawny33
fonte
1

Aqui está um procedimento simples que você pode usar:

  1. aprenda um classificador para distinguir entre dados de trem / teste (usando recursos regulares do X)
  2. calcular o coeficiente de correlação phi para estimar a qualidade do classificador = a separabilidade dos dados de trem / teste
  3. defina um limite (por exemplo, 2) acima do qual você pode reivindicar uma mudança covariável (e comece a procurar correções)
oDDsKooL
fonte
0

Você não fornece muitas pistas sobre quais propriedades das imagens você pode estar considerando, mas parece que o que você deseja medir é a diferença nas distribuições dos conjuntos de treinamento e testes. Um lugar útil para começar seria com a divergência Kullback-Leibler, que é uma medida da diferença de duas distribuições.

image_doctor
fonte
0

O problema da mudança covariável resulta em conjuntos de dados com diferentes estruturas matemáticas subjacentes. Agora, o Manifold Learning estima uma representação de baixa dimensão de dados de alta dimensão, revelando a estrutura subjacente. Muitas vezes, as técnicas de aprendizado múltiplo não são projeções - portanto, diferentes e mais poderosas que o PCA padrão.

Eu usei técnicas de Manifold Learning (por exemplo: IsoMap, MDS, etc) para visualizar (e, se possível, quantificar) a "(des) similaridade" entre os conjuntos de dados de trem e teste.

Imran.Fanaswala
fonte