Quais matérias de matemática você sugeriria para se preparar para mineração de dados e aprendizado de máquina?

30

Estou tentando montar um currículo de matemática auto-direcionado para me preparar para o aprendizado de mineração de dados e aprendizado de máquina. Isso é motivado pelo início da aula de aprendizado de máquina de Andrew Ng no Coursera e sentindo que, antes de prosseguir, eu precisava melhorar minhas habilidades matemáticas. Eu me formei na faculdade há um tempo, então minha álgebra e estatística (especificamente das aulas de ciências políticas / psicologia) estão enferrujadas.

As respostas no tópico Um histórico sólido em matemática é um requisito total para o ML? sugerir apenas livros ou aulas diretamente relacionados ao aprendizado de máquina; Eu já examinei algumas dessas aulas e livros e não sei exatamente qual assunto de matemática estudar (por exemplo: quais campos do endereço de matemática derivam uma equação para "minimizar uma função de custo"?). O outro segmento sugerido ( Habilidades e cursos necessários para ser um analista de dados ) menciona apenas categorias amplas de habilidades necessárias para a análise de dados. O tópico Introdução à estatística para matemáticos não se aplica porque eu ainda não sou formado em matemática; um tópico semelhante O matemático deseja o conhecimento equivalente a um grau de estatística de qualidade tem uma lista incrível de livros de estatísticas, mas, novamente, estou olhando para começar a matemática a partir de uma lembrança enferrujada de álgebra e a partir daí.

Então, para aqueles que trabalham em aprendizado de máquina e mineração de dados, quais campos da matemática você considera essenciais para fazer seu trabalho? Quais matérias de matemática você sugeriria para se preparar para mineração de dados e aprendizado de máquina e em que ordem? Aqui está a lista e a ordem que tenho até agora:

  • Álgebra
  • Pré-cálculo
  • Cálculo
  • Álgebra Linear
  • Probabilidade
  • Estatísticas (muitos subcampos diferentes aqui, mas não sabem como separá-los)

Quanto à mineração de dados e ao aprendizado de máquina, através do meu trabalho atual, tenho acesso a registros de atividades de sites / aplicativos, transações de clientes / assinaturas e dados imobiliários (estáticos e séries temporais). Espero aplicar a mineração de dados e o aprendizado de máquina a esses conjuntos de dados.

Obrigado!

EDITAR:

Para o bem da posteridade, eu queria compartilhar uma autoavaliação matemática útil da aula de introdução ao aprendizado de máquina de Geoffrey Gordon / Alex Smola na CMU.

measureallthethings
fonte
3
Em termos de pré-requisitos para as aulas do Coursera, essas informações devem estar disponíveis em algum lugar em seus materiais. Fora das aulas / em geral, a questão de qual matemática você precisa para stat / ML / DM me parece uma duplicata. Existem vários tópicos no CV que cobrem esse material, incluindo: é um histórico forte em matemática, um requisito para ml , e cursos de habilidades necessários para ser um analista de dados ( talvez entre outros).
gung - Restabelece Monica
11
Revise esses tópicos, os que estão vinculados lá como intimamente relacionados, e talvez pesquise no site. Se você ainda tiver alguma dúvida depois de ler, volte aqui e edite este Q para torná-lo mais distinto / especificar com mais precisão o que você ainda precisa saber que não foi abordado em nenhum outro lugar.
gung - Restabelece Monica

Respostas:

15

Vale a pena acompanhar as sugestões que o @gung fez. Depois de fazer o curso de coursera, acho que sua lista é um bom começo. Alguns comentários:

  1. álgebra linear e álgebra matricial são a mesma coisa, então abandone a última.
  2. zxyzxdzdx
  3. no cálculo, você não precisa de nada além da integração básica (e talvez nem isso). Isso é uma sorte, porque a integração é difícil.
  4. adicione otimização básica, ou seja, encontrar o máximo ou o mínimo de uma função, normalmente uma função de mais de uma variável. Uma apreciação da descida gradual, no mínimo, é essencial.
  5. em termos de dificuldade, você provavelmente quer estar em algum lugar entre o início e o final da graduação do primeiro ano.
  6. tente ler alguns textos básicos de probabilidade e estatística, on-line ou não, mas não se preocupe muito (a matemática básica é um pré-requisito para entender a probabilidade e a estatística). Se você fizer alguns cursos, como o sugerido, descobrirá o que precisa aprender e onde estão seus interesses. Uma coisa que você não quer fazer, pelo menos a princípio, é gastar muito tempo aprendendo sobre o teste de hipóteses. Você prefere ir para o entendimento das estatísticas básicas - variáveis ​​aleatórias, distribuições de probabilidade (PFDs, CDFs), estatística descritiva - e depois tentar entender a regressão.
TooTone
fonte
5

Existem alguns tópicos excelentes neste fórum - incluindo ESTE que achei particularmente útil para mim em termos de desenvolvimento de um esboço conceitual das habilidades importantes para o trabalho em ciência de dados.

Como mencionado acima, existem muitos cursos online disponíveis. Por exemplo, o Coursera agora possui uma especialização em ciência de dados com vários cursos que provavelmente abrangeriam algumas das ferramentas necessárias para o seu trabalho.

GregF
fonte
3

Se você deseja aumentar o aprendizado de máquina / mineração de dados, recomendo fortemente a otimização / álgebra linear / estatística e probabilidade. Aqui está uma lista de livros para probabilidade. Espero que ajude.

brócolis
fonte
3

Quanto a escovar habilidades de matemática muito básicas, estou usando estes livros:

Elementos de matemática para economia e finanças. Mavron, Vassilis C., Phillips, Timothy N Este livro aborda habilidades matemáticas essenciais (subtração de adição), até diferenciação parcial, integração, matriz e determinantes e um pequeno capítulo sobre otimização e também equação diferencial. É voltado para economia e finanças, mas é um livro pequeno, a sequência de capítulos se adapta às minhas necessidades e é de fácil leitura para mim.

Análise estatística: Microsoft Excel 2010. Conrad Carlberg Abrange análise estatística básica, para regressão múltipla e análise de covariância, e usa o excel.

Descobrindo Estatísticas Usando R. Andy Field, Jeremy Miles, Zoë Field. Ainda não o leu. Usa R.

Álgebra Linear Elementar. Ron Larson, David C. Falvo.

Métodos de matriz: álgebra linear aplicada Por Richard Bronson, Gabriel B. Costa. abrange álgebra linear elementar e cálculo de matriz

Esses são os livros básicos de matemática que eu uso para me relacionar com mineração de dados / aprendizado de máquina

Espero que isto ajude

Iwan
fonte
3

Existem muitos recursos relevantes listados (e categorizados) aqui , no chamado "Mestrado em Ciência de Dados de Código Aberto".

Especificamente para a matemática, eles listam:

  1. Álgebra Linear e Programação
  2. Estatisticas
  3. Equações diferenciais e cálculo

Recomendações bastante genéricas, embora elas listem alguns livros que você pode achar úteis.

anthr
fonte
2
  • Probabilidade e estatística são essenciais. Algumas palavras-chave são teste de hipóteses, distribuição normal multivariada, inferência bayesiana (probabilidade conjunta, probabilidade condicional), média, variância, covariância, divergência de Kullback-Leibler, ...
  • Álgebra linear básica é essencial para o aprendizado de máquina. Os tópicos que você pode aprender são decomposição de Eigen e decomposição de valor singular. (É claro que você deve saber como calcular um produto da matriz.)
  • Como o TooTone já mencionou: a otimização é importante. Você deve saber o que é a descida gradual e talvez dar uma olhada no método de Newton, Levenberg-Marquardt, Broyden-Fletcher-Goldfarb-Shanno.
  • O cálculo não é tão importante, mas pode ser útil saber como calcular as derivadas parciais de funções (matriz de Jacobi, matriz de Hesse, ...) e você deve saber o que é uma integral.
alfa
fonte
0

Álgebra linear, estatísticas, cálculo. Eu acho que você pode aprendê-los em conjunto w / ML - ou mesmo depois do básico. Os cursos / livros iniciais fazem um ótimo trabalho com os capítulos de matemática, e você aprende o básico da matemática enquanto aprende ML. Fiz um episódio de podcast sobre a matemática necessária para o aprendizado de máquina e os recursos para aprendê-los: Guia de aprendizado de máquina # 8

lefnire
fonte
0

Antes de iniciar qualquer curso de aprendizado de máquina, siga o curso de matemática. Também não tente cavar em uma única tentativa. Aprenda conceitos básicos e, em seguida, aprimore suas habilidades matemáticas e repita: -

Os tópicos de matemática são os seguintes: -

  • Álgebra Linear
  • Probabilidade
  • Cálculo básico
  • Máximos e mínimos de função
Nikhil Agrawal
fonte