Parece que a mineração de dados e o aprendizado de máquina se tornaram tão populares que agora quase todo estudante de CS conhece classificadores, agrupamentos, PNL estatística ... etc. Portanto, parece que encontrar mineradores de dados não é algo difícil hoje em dia.
Minha pergunta é: Quais são as habilidades que um minerador de dados poderia aprender que o tornariam diferente dos outros? Para fazer dele um tipo de pessoa não tão fácil de encontrar.
machine-learning
data-mining
Jack Twain
fonte
fonte
Respostas:
Já vi várias vezes desenvolvedores usarem técnicas de ML. Este é o padrão usual:
A resposta simples é que (a maioria) engenheiros de software são muito fracos em estatísticas e matemática. Essa é a vantagem de quem quer competir com eles. É claro que as pessoas estão fora de sua zona de conforto se precisarem escrever um código de produção. O tipo de papel que se torna realmente raro é o do Data Scientist. É alguém que pode escrever código para acessar e brincar com a enorme quantidade de dados e encontrar o valor neles.
fonte
Do que se trata
Apenas conhecer técnicas é semelhante a conhecer os animais em um zoológico - você pode nomeá-los, descrever suas propriedades, talvez identificá-los na natureza.
Compreender quando usá-los, formular, criar, testar e implantar modelos matemáticos funcionais em uma área de aplicação, evitando as armadilhas - essas são as habilidades que distinguem, na minha opinião.
A ênfase deve estar na ciência , aplicando uma abordagem sistemática e científica aos problemas comerciais, industriais e comerciais. Mas isso requer habilidades mais amplas do que a mineração de dados e o aprendizado de máquina, como Robin Bloor argumenta de maneira persuasiva em "A Data Science Rant" .
Então, o que se pode fazer?
Áreas de aplicação : aprenda sobre várias áreas de aplicação próximas ao seu interesse ou do seu empregador. A área geralmente é menos importante do que entender como o modelo foi construído e como foi usado para agregar valor a essa área. Modelos bem-sucedidos em uma área geralmente podem ser transplantados e aplicados a diferentes áreas que funcionam de maneira semelhante.
Competições : experimente o site da competição de mineração de dados Kaggle , de preferência se juntando a uma equipe de outras pessoas. (Kaggle: uma plataforma para competições de modelagem preditiva. Empresas, governos e pesquisadores apresentam conjuntos de dados e problemas e os melhores cientistas de dados do mundo competem para produzir as melhores soluções.)
Fundamentos : Existem quatro: (1) sólida base em estatística, (2) razoavelmente boas habilidades de programação, (3) compreensão de como estruturar consultas de dados complexas, (4) construção de modelos de dados. Se houver algum fraco, é um ponto importante para começar.
Algumas citações a esse respeito:
Tenha em mente:
E finalmente:
Os problemas aplicados mais reais não são acessíveis apenas a partir do `` mapa ''. Para fazer coisas práticas com a modelagem matemática, é preciso estar distraído com detalhes, sutilezas e exceções. Nada pode substituir o conhecimento do território em primeira mão.
fonte
Eu concordo com tudo o que foi dito. O que se destaca para mim são:
fonte
Aqui estão algumas coisas para fazer você se destacar da multidão:
A mensagem geral que se aplica aos três pontos: Olhe para o quadro geral, não se perca nos detalhes.
fonte
A habilidade que diferencia um minerador de dados de outros é a capacidade de interpretar modelos de aprendizado de máquina. A maioria constrói uma máquina, relata o erro e depois para. Quais são as relações matemáticas entre os recursos? Os efeitos são aditivos ou não aditivos ou ambos? Algum dos recursos é irrelevante? A máquina é esperada sob a hipótese nula de que existem apenas padrões de chance nos dados? O modelo generaliza para dados independentes? O que esses padrões significam para o problema que está sendo estudado? Quais são as inferência? Quais são as idéias? Por que um especialista em domínio deve ficar animado? A máquina levará o especialista do domínio a fazer novas perguntas e a projetar novos experimentos? O minerador de dados pode comunicar efetivamente o modelo e suas implicações para o mundo?
fonte
Eu colocaria lá fora a noção de "soft skills".
reconhecer quem é o "especialista" para o método X e ser capaz de explorar o conhecimento deles (você não deve saber ou saber tudo sobre o que está acontecendo). A capacidade e vontade de colaborar com os outros.
a capacidade de traduzir ou representar "o mundo real" com a matemática usada no ML.
a capacidade de explicar seus métodos de diferentes maneiras para diferentes públicos - sabendo quando focar nos detalhes e quando voltar atrás e visualizar o contexto mais amplo.
pensando em sistemas, sendo capaz de ver como sua função se alimenta em outras áreas da empresa e como essas áreas se alimentam de seu trabalho.
uma apreciação e compreensão da incerteza e ter alguns métodos estruturados para lidar com isso. Ser capaz de declarar claramente quais são suas suposições.
fonte
Ser capaz de generalizar bem
Essa é a essência de um bom modelo. E é a essência do que faz os melhores profissionais da arte do aprendizado de máquina se destacarem da multidão.
Entendendo que o objetivo é otimizar o desempenho em dados invisíveis, não minimizar a perda de treinamento. Saber evitar o excesso e o mal encaixe. Apresentando modelos que não são muito complexos, mas não muito simples, na descrição do problema. Extrair a essência de um conjunto de treinamento, em vez do máximo possível.
É surpreendente quantas vezes, mesmo os praticantes experientes de aprendizado de máquina, deixam de seguir esse princípio. Uma razão é que os humanos não conseguem apreciar duas grandes diferenças de magnitude da teoria versus prática :
É também o que a maioria das respostas acima disse de maneiras mais específicas e concretas. generalizar bem é apenas a maneira mais curta em que pude pensar, para colocá-lo.
fonte
Vejo que há duas partes ao lidar com o aprendizado de máquina na prática
Engenharia (que abrange todos os algoritmos, aprendendo diferentes pacotes, programação).
Curiosidade / raciocínio (capacidade de fazer melhores perguntas aos dados).
Eu acho que 'curiosidade / raciocínio' é a habilidade que distingue um dos outros. Por exemplo, se você vir os quadros de líderes das conclusões do kaggle, muitas pessoas podem ter usado algoritmos comuns (semelhantes), o que faz a diferença é como questionar os dados e formulá-los logicamente.
fonte