É aconselhável combinar dois conjuntos de dados?

7

Eu tenho dois conjuntos de dados sobre a freqüência cardíaca de sujeitos que foram registrados em dois lugares diferentes (dois continentes diferentes para ser exato). Os dois experimentos de pesquisa tiveram como objetivo encontrar as emoções dos sujeitos com base em quanto a frequência cardíaca muda ao longo do tempo. Estou usando o aprendizado de máquina para prever as emoções dos sujeitos e estou obtendo resultados aceitáveis ​​quando testados separadamente em cada conjunto de dados. No entanto, fico com um resultado ainda melhor se mesclar os dois conjuntos de dados.

No entanto, não tenho certeza se a combinação dos dois conjuntos de dados é aceitável. Como eu estou combinando dois conjuntos de dados de alguma forma diferentes, isso criará viés estatístico? Como devo relatar minha descoberta em um jornal?

Lapatrie
fonte
11
Bem-vindo ao DS SE, a melhor podem tell.is para go.ahead e tentar combinar e, em seguida, comparando as pontuações separadamente em uma validação DataSet fixo que vem de ambos os conjuntos de dados, para que possamos referência nossas novas descobertas
Aditya
@ Aditya, como eu disse na minha pergunta, eu já combinei os dois conjuntos de dados e obtenho melhores resultados. Minha pergunta não é sobre se posso combinar os conjuntos de dados. A minha pergunta é se isto não irá criar viés estatístico como eu estou combinando dois conjuntos de dados de alguma forma diferentes
Lapatrie

Respostas:

2

Se você adicionar 'continente' ou 'local' como um recurso para o modelo, poderá controlar a possível tendência enquanto obtém os resultados dos dados adicionais.

Super_John
fonte
Muito obrigado pela sua sugestão útil. Vou fazer isso e ver como ele vai
Lapatrie
3

Além do que @Super_John disse, se você adicionar continentes como um recurso, provavelmente também poderá ter pelo menos 2mais recursos,

  • Latitude
  • A Longitude

Adicione também outra coluna temporária para indicar o Source(como1 para 1st df, 2 para 2nd df etc), para que possamos adicionar cores ao k-means

Portanto, agora podemos ter um k-meanscluster para ver se os valores estão sobrepostos ou não ... (Tentando vê-lo de uma maneira não supervisionada)

(A analogia é equivalente ao fato de que você pode agrupar o tempo (24 horas por dia) de forma cíclica, como plotagem sin(x), cos(X) e depois tentar agrupá-los)

Dê uma olhada nesta resposta, Seleção de recursos, Extração

Aditya
fonte
Muito obrigado pela sua resposta. Definitivamente explorarei todos os métodos sugeridos e atualizarei o que funcionou melhor.
Lapatrie 1/10/19
11
Esta é uma ótima sugestão. Fonde - se você fizer isso, poderá entender qualquer viés entre os conjuntos de dados e se for encontrado pouco ou nenhum viés (ou seja, os clusters se sobrepõem estreitamente), você poderá combinar e usar a análise como suporte empírico para a robustez dos conjuntos de dados combinados em sua tarefa de modelagem .
Super_John
@Aditya Espero que você continue ajudando outros :)
Media
11
Não tenho outra opção! Mas você pode levá-los de volta! Está tudo bem :)) Eu gosto desta comunidade! @Media
Aditya
3

Embora geralmente no treinamento de um modelo de aprendizado de máquina, quanto mais dados você tenha, melhor para o treinamento de modelos generalizados, que pode não ser o caso aqui.

Dado que os dois conjuntos de dados foram coletados em ambientes completamente diferentes, eles podem ter distribuições completamente diferentes. Nesse caso, o treinamento de um modelo no conjunto de dados combinado pode até reduzir o desempenho do modelo.

Meu conselho seria: faça alguma análise estatística em cada conjunto de dados de forma independente - encontre a média e as variações de cada uma das variáveis ​​de cada conjunto de dados e compare-as por exemplo. Se a análise mostrar que os dois dados têm distribuições bastante semelhantes (deixarei a definição de bastante semelhante para você), convém combinar os dois conjuntos de dados para treinar um modelo.

PyRsquared
fonte
2

Sim, geralmente com ML, mais dados você possui, melhores resultados! É claro que misturar dados de diferentes populações é arriscado, mas se funcionar, você está no caminho certo.

O uso de mais dados ajuda a generalizar durante o treinamento do seu modelo. Portanto, se você conseguir testar seu modelo sobre a amostra da população e obter um bom resultado, poderá fazê-lo.

Francesco Pegoraro
fonte
Obrigado. Vou tentar e irá atualizar meu post depois de obter o resultado
Lapatrie
1

Para adicionar a esta discussão, uma avaliação adequada lhe dirá um pouco e pode ser usada para apresentar o trabalho:

  • Crie um conjunto de testes para o conjunto de dados 1.
  • Crie um conjunto de testes para o conjunto de dados 2.
  • Treine um modelo usando apenas o conjunto de dados 1, apenas o conjunto de dados 2 e usando uma combinação dos conjuntos de dados 1 e 2 para avaliar seu desempenho nos dois conjuntos de testes.

Se o modelo combinado for significativamente melhor que os modelos separados, você tem alguma coisa e acho que pode relatar como tal em uma possível publicação. Obviamente, você ainda precisará motivar qual modelo de aprendizado de máquina você usa, sua métrica de desempenho interessante, como realiza validação cruzada, ...

Archie
fonte
2
Você está focando estreitamente na otimização do desempenho do modelo. A preocupação é que os dados e os experimentos sejam de alguma forma diferentes e que a publicação reconheça qualquer viés entre os dois experimentos semelhantes, mas diferentes. Embora os conjuntos de dados possam ser combinados, deve haver um nível de interpretação que permita a explicação e a medição do viés entre os experimentos, o que suas soluções não permitem.
Super_John
11
Ao investigar o erro de teste, pode-se fazer uma estimativa do viés e variância? Além disso, acho que os resultados dos testes do modelo treinado no conjunto de dados 1 e avaliados no conjunto de testes 2 (e vice-versa) lhe dirão muito?
Archie
1

Antes que eu possa tentar responder às suas perguntas, apresentarei o que entendi.

Cenário: Dois conjuntos de dados com freqüência cardíaca de sujeitos gravados em dois continentes diferentes estão disponíveis.

Objetivo: Encontrar as emoções dos sujeitos com base em quanto a frequência cardíaca muda ao longo do tempo

Objetivo: Classificar as emoções dos sujeitos

Notado:

  1. Os resultados são aceitáveis ​​quando treinados e testados separadamente.

  2. Suponha que os resultados melhorariam ao combinar dois conjuntos de dados

Questões:

  1. A combinação dos dois conjuntos de dados é aceitável?

Se os assuntos dos dois continentes forem os mesmos, não haverá problema em combinar os conjuntos de dados. O conjunto de emoções é praticamente o mesmo nos mesmos assuntos

  1. Como você está combinando dois conjuntos de dados de alguma forma diferentes, isso criará viés estatístico?

Desde que os assuntos de dois conjuntos de dados sejam os mesmos, a combinação melhorará seus resultados devido a mais dados.

  1. Como você deve relatar suas descobertas em um jornal?

Você pode executar o teste de hipótese (ANOVA) para duas amostras

NRP
fonte
Muito obrigado pela sua resposta muito detalhada e lamento muito a falta de clareza no meu post original. Os assuntos em dois continentes diferentes não são os mesmos. No entanto, as condições de gravação são de alguma forma semelhantes (mas não exatamente as mesmas).
Lapatrie 04/10/19
11
Ele menciona "Os dois experimentos de pesquisa destinados a ...", portanto, não são o mesmo experimento de pesquisa, embora talvez semelhantes. Eu acho que a preocupação aqui é em torno do viés na diferença desconhecida nos experimentos, portanto, embora possam ser definidos, eles só podem ser controlados se o 'continente' ou 'id do experimento' for incluído no modelo ou testado para independência.
Super_John
@FondeLapatrie Espero que você seja bom. A justificação é importante ao tomar determinadas medidas. Desde então, você não pode fornecer mais detalhes sobre este caso de uso. você precisa tomar uma decisão, é correto combinar dois conjuntos de dados em que os sujeitos são diferentes e a condição da experiência ser semelhante? Se os indivíduos (digamos mamíferos carnívoros) são tigres e ursos polares de regiões diferentes, seria correto combinar? Este é apenas um exemplo. Espero que você possa entender o que estou tentando transmitir.
NRP
@ NRP Muito obrigado. Entendo as armadilhas e os riscos associados à fusão de dois conjuntos de dados. Depois de ler a conversa neste tópico, acredito que, no meu caso, é válido combinar os dois conjuntos de dados.
Lapatrie 15/10/1918
11
@FondeLapatrie Isso é bom. Desejo-lhe sucesso!
NRP