Uma suposição básica no aprendizado de máquina é que os dados de treinamento e teste são obtidos da mesma população e, portanto, seguem a mesma distribuição. Mas, na prática, isso é altamente improvável. O turno covariável aborda esse problema. Alguém pode tirar as seguintes dúvidas sobre isso?
Como se verifica se duas distribuições são estatisticamente diferentes? A estimativa de densidade de kernel (KDE) pode ser usada para estimar a distribuição de probabilidade e diferenciar? Digamos que tenho 100 imagens de uma categoria específica. O número de imagens de teste é 50, e eu estou alterando o número de imagens de treinamento de 5 para 50 nas etapas de 5. Posso dizer que as distribuições de probabilidade são diferentes ao usar 5 imagens de treinamento e 50 imagens de teste após as estimar pelo KDE?
fonte
Respostas:
Uma boa maneira de medir a diferença entre duas distribuições probabilísticas é Kullbak-Liebler . Você deve levar em conta que a distribuição foi integrada a um. Além disso, você deve levar em consideração que não é uma distância porque não é simétrica. KL (A, B) não é igual a KL (B, A)
fonte
Se você estiver trabalhando com um grande conjunto de dados. A distribuição do treinamento e do conjunto de testes pode não ser muito diferente. Em teoria, a "lei dos grandes números" garante que a distribuição permaneça a mesma. Para um conjunto menor de dados, provavelmente este é um bom ponto para cuidar da distribuição. Como dito por Hoap, o humanóide "Kullbak-Liebler" pode ser usado para encontrar a diferença de distribuição de dois conjuntos.
fonte