O que é mistura de dados?

15

Este termo aparece frequentemente nos encadeamentos relacionados ao método .

A combinação de um método específico para mineração de dados e aprendizado estatístico? Não consigo obter um resultado relevante do google.

Parece que a mistura está misturando resultados de muitos modelos e resultando em um resultado melhor. Existe algum recurso que me ajude a saber mais sobre isso?

TomHall
fonte

Respostas:

10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Alguns documentos para ajudá-lo a entender melhor o que é a mistura. Eu acho que você também pode pesquisar no Google para seleção / aprendizado de conjuntos e empilhamento.

Seu entendimento geral de 'misturar resultados de muitos modelos e resultar em um resultado melhor' está correto.

Rei
fonte
Esse link foi retirado de algum lugar do fórum do kaggle também. Eu só salvei o link do pdf, mas não a discussão ...
rei
12

Impulsionar (como mencionado na discussão vinculada) é um método que combina um conjunto de algoritmos para obter um resultado melhor do que o que você pode obter de qualquer algoritmo único. Por exemplo, florestas aleatórias é um método para combinar várias árvores de classificação para um algoritmo de classificação. Essa abordagem é formalmente chamada de média do conjunto (embora o algoritmo geralmente aplique a regra da maioria). Mistura parece ser uma palavra que algumas pessoas usam para descrever uma abordagem impulsionadora da classificação.

Michael R. Chernick
fonte
Então, isso pode ser chamado de mistura, se eu substituir as árvores de classificação em um modelo adaboost normal por outro conjunto de algoritmos?
21412 TomHall
Olá, Michael. Sua resposta é realmente útil, mas, que pena, sou novo nas estatísticas e ainda não tenho reputação suficiente para votar sua resposta.
21412 TomHall
11
Bem, lembre-se de fazê-lo depois de obter alguns pontos de repetição.
Michael R. Chernick
0

Na indústria, a mistura de dados não é sobre modelos, mas sobre pré - processamento : é quando os dados são mesclados que vêm de fontes diferentes, como um de um banco de dados e outros dados de arquivos CSV.

Make42
fonte