Eu tenho dois conjuntos de dados sobre a freqüência cardíaca de sujeitos que foram registrados em dois lugares diferentes (dois continentes diferentes para ser exato). Os dois experimentos de pesquisa tiveram como objetivo encontrar as emoções dos sujeitos com base em quanto a frequência cardíaca muda ao longo do tempo. Estou usando o aprendizado de máquina para prever as emoções dos sujeitos e estou obtendo resultados aceitáveis quando testados separadamente em cada conjunto de dados. No entanto, fico com um resultado ainda melhor se mesclar os dois conjuntos de dados.
No entanto, não tenho certeza se a combinação dos dois conjuntos de dados é aceitável. Como eu estou combinando dois conjuntos de dados de alguma forma diferentes, isso criará viés estatístico? Como devo relatar minha descoberta em um jornal?
fonte
Respostas:
Se você adicionar 'continente' ou 'local' como um recurso para o modelo, poderá controlar a possível tendência enquanto obtém os resultados dos dados adicionais.
fonte
Além do que @Super_John disse, se você adicionar continentes como um recurso, provavelmente também poderá ter pelo menos
2
mais recursos,Adicione também outra coluna temporária para indicar o1 1 para 1 s t df, 2 para 2 n d df etc), para que possamos adicionar cores ao
Source
(comok-means
Portanto, agora podemos ter um
k-means
cluster para ver se os valores estão sobrepostos ou não ... (Tentando vê-lo de uma maneira não supervisionada)(A analogia é equivalente ao fato de que você pode agrupar o tempo (24 horas por dia) de forma cíclica, como plotagems i n ( x ) , c o s ( X) e depois tentar agrupá-los)
Dê uma olhada nesta resposta, Seleção de recursos, Extração
fonte
Embora geralmente no treinamento de um modelo de aprendizado de máquina, quanto mais dados você tenha, melhor para o treinamento de modelos generalizados, que pode não ser o caso aqui.
Dado que os dois conjuntos de dados foram coletados em ambientes completamente diferentes, eles podem ter distribuições completamente diferentes. Nesse caso, o treinamento de um modelo no conjunto de dados combinado pode até reduzir o desempenho do modelo.
Meu conselho seria: faça alguma análise estatística em cada conjunto de dados de forma independente - encontre a média e as variações de cada uma das variáveis de cada conjunto de dados e compare-as por exemplo. Se a análise mostrar que os dois dados têm distribuições bastante semelhantes (deixarei a definição de bastante semelhante para você), convém combinar os dois conjuntos de dados para treinar um modelo.
fonte
Sim, geralmente com ML, mais dados você possui, melhores resultados! É claro que misturar dados de diferentes populações é arriscado, mas se funcionar, você está no caminho certo.
O uso de mais dados ajuda a generalizar durante o treinamento do seu modelo. Portanto, se você conseguir testar seu modelo sobre a amostra da população e obter um bom resultado, poderá fazê-lo.
fonte
Para adicionar a esta discussão, uma avaliação adequada lhe dirá um pouco e pode ser usada para apresentar o trabalho:
Se o modelo combinado for significativamente melhor que os modelos separados, você tem alguma coisa e acho que pode relatar como tal em uma possível publicação. Obviamente, você ainda precisará motivar qual modelo de aprendizado de máquina você usa, sua métrica de desempenho interessante, como realiza validação cruzada, ...
fonte
Antes que eu possa tentar responder às suas perguntas, apresentarei o que entendi.
Cenário: Dois conjuntos de dados com freqüência cardíaca de sujeitos gravados em dois continentes diferentes estão disponíveis.
Objetivo: Encontrar as emoções dos sujeitos com base em quanto a frequência cardíaca muda ao longo do tempo
Objetivo: Classificar as emoções dos sujeitos
Notado:
Os resultados são aceitáveis quando treinados e testados separadamente.
Suponha que os resultados melhorariam ao combinar dois conjuntos de dados
Questões:
Se os assuntos dos dois continentes forem os mesmos, não haverá problema em combinar os conjuntos de dados. O conjunto de emoções é praticamente o mesmo nos mesmos assuntos
Desde que os assuntos de dois conjuntos de dados sejam os mesmos, a combinação melhorará seus resultados devido a mais dados.
Você pode executar o teste de hipótese (ANOVA) para duas amostras
fonte