Diferença entre distribuições de dados de treinamento e teste

7

Uma suposição básica no aprendizado de máquina é que os dados de treinamento e teste são obtidos da mesma população e, portanto, seguem a mesma distribuição. Mas, na prática, isso é altamente improvável. O turno covariável aborda esse problema. Alguém pode tirar as seguintes dúvidas sobre isso?

Como se verifica se duas distribuições são estatisticamente diferentes? A estimativa de densidade de kernel (KDE) pode ser usada para estimar a distribuição de probabilidade e diferenciar? Digamos que tenho 100 imagens de uma categoria específica. O número de imagens de teste é 50, e eu estou alterando o número de imagens de treinamento de 5 para 50 nas etapas de 5. Posso dizer que as distribuições de probabilidade são diferentes ao usar 5 imagens de treinamento e 50 imagens de teste após as estimar pelo KDE?

machine-learning classification dataset image-classification Daniel Wonglee
fonte

11

Por favor, não cruze a postagem ( stats.stackexchange.com/questions/173968/… )

Dawny33

@ Dawny33: Parece que esta pergunta é mais relevante para este site do que a validação cruzada. É por isso que postei aqui.

precisa saber é o seguinte

Essa é difícil por duas razões. Se transformar as imagens em uma distribuição usando o KDE fosse viável, eu diria para você aplicar um teste de Kolmogorov – Smirnov de duas amostras . Mas, a natureza bidimensional da imagem tornará isso difícil. Também há um efeito lado a lado nas imagens que não serão recuperadas bem com o KS. Sugiro, assim, o processamento da imagem: distância de Haussdorff . Verifique também este post .

AN6U5

1

Uma boa maneira de medir a diferença entre duas distribuições probabilísticas é Kullbak-Liebler . Você deve levar em conta que a distribuição foi integrada a um. Além disso, você deve levar em consideração que não é uma distância porque não é simétrica. KL (A, B) não é igual a KL (B, A)

hoaphumanoid
fonte

0

Se você estiver trabalhando com um grande conjunto de dados. A distribuição do treinamento e do conjunto de testes pode não ser muito diferente. Em teoria, a "lei dos grandes números" garante que a distribuição permaneça a mesma. Para um conjunto menor de dados, provavelmente este é um bom ponto para cuidar da distribuição. Como dito por Hoap, o humanóide "Kullbak-Liebler" pode ser usado para encontrar a diferença de distribuição de dois conjuntos.

Pranav Waila
fonte

11

Eu acrescentaria que a estratificação pode ser uma ferramenta viável para lidar com conjuntos menores, uma vez que se reconhece que a distância está acima do seu limite.

Pincopallino

Diferença entre distribuições de dados de treinamento e teste

Respostas: