Atualmente, estou estudando matemática. No entanto, acho que não quero me tornar um matemático profissional no futuro. Estou pensando em aplicar meus conhecimentos de matemática para fazer pesquisas em inteligência artificial. No entanto, não tenho certeza de quantos cursos de matemática devo seguir. (E quais cursos de teoria de CS devo seguir.)
Com o Quora, aprendi que os assuntos Álgebra Linear, Estatística e Otimização Convexa são mais relevantes para o Aprendizado de Máquina (consulte esta pergunta). Outra pessoa mencionou que é necessário aprender Álgebra Linear, Probabilidade / Estatística, Cálculo, Algoritmos Básicos e Lógica para estudar a inteligência artificial (consulte esta pergunta).
Eu posso aprender sobre todos esses assuntos durante meus primeiros 1,5 anos de bacharel em matemática em nossa universidade.
Fiquei me perguntando, no entanto, se há algum graduado superior em matemática, mesmo no nível de pós-graduação, que seja útil ou até necessário para estudar inteligência artificial. E quanto às EDOs, PDEs, Topologia, Teoria das Medidas, Análise Linear, Análise de Fourier e Análise em Distribuidores?
Um livro que sugere que alguma matemática bastante avançada é útil no estudo da inteligência artificial é a teoria dos padrões: a análise estocástica dos sinais do mundo real de David Mumford e Agnes Desolneux (veja esta página). Ele inclui capítulos sobre cadeias de Markov, modelos gaussianos fragmentados, campos de Gibbs, variedades, grupos de mentiras e álgebras de mentiras e suas aplicações à teoria dos padrões. Até que ponto este livro é útil na pesquisa de IA?
fonte
Respostas:
Eu não quero parecer condescendente, mas a matemática que você está estudando nos cursos de graduação e até de pós-graduação não é avançada. É o básico . O título da sua pergunta deve ser: A matemática "básica" é necessária / útil na pesquisa de IA? Então, devore o máximo que puder, nunca conheci um cientista da computação que se queixou de saber muita matemática, embora tenha conhecido muitos que se queixaram de não saber o suficiente. Lembro-me de ajudar um colega de pós-graduação em AI a entender um algoritmo no estilo de classificação de página. Era apenas uma álgebra linear bastante fácil para mim, mas ele sofreu porque não tinha noção do que eram os autovalores e autovetores. Imagine o que as pessoas de IA poderiam fazer se realmente soubessem muita matemática!
Eu ensino em um departamento de matemática e recebo regularmente solicitações de meus colegas de CS para recomendar cursos de matemática para doutorados em CS, porque preferem estudantes de matemática. Veja bem, é muito difícil aprender matemática por conta própria, mas a maioria dos aspectos da ciência da computação não é. Eu sei, eu era um estudante de matemática que entrou na escola de pós-graduação em CS. Claro, eu estava "atrasado" no conhecimento dos sistemas operacionais (apesar de ter um conhecimento decente do Unix e do VMS), mas estava muito à frente na "teoria". Não é uma situação simétrica.
fonte
Max, aqui está uma lista (necessariamente) parcial:
Álgebra linear básica e probabilidade são necessárias em todo o lugar. Suponho que você não precise de referências para isso.
Que eu saiba, a análise de Fourier foi usada em algumas investigações relacionadas à teoria da aprendizagem. Confira este documento , por exemplo.
O conceito de aprendizado múltiplo está se popularizando e você pode começar a dar uma olhada nos trabalhos de Mikhail belkin e Partha Niyogi. Esta linha de trabalho requer a compreensão de vários conceitos relacionados a variedades e geometria riemanniana.
Há outro aspecto do aprendizado de máquina, que tem raízes mais profundas na estatística, a saber, Geometria da informação. Essa área está ligada a vários conceitos de geometria riemanniana, teoria da informação, informações de Fisher, etc. Um primo desse tipo de estudo pode ser encontrado na estatística algébrica - que é um campo nascente com muito potencial.
Sumio Watanabe, investigou uma fronteira diferente, a saber, a existência de singularidades em modelos de aprendizagem e como aplicar resultados profundos de resoluções da geometria algébrica para abordar muitas questões. Os resultados de Watanabe se baseiam fortemente no célebre trabalho de Heisuke Hironaka que lhe valeu a medalha Fields.
Suponho que estou omitindo muitas outras áreas que exigem matemática relativamente pesada. Mas, como Andrej apontou, a maioria deles provavelmente não se encontra nas fronteiras da matemática, mas são domínios relativamente mais antigos e estabelecidos.
De qualquer forma, no entanto, suponho que o atual estado da IA que entrou na computação convencional - como nos sistemas de recomendação na Amazon ou nas bibliotecas de aprendizado de máquina encontradas no Apache Mahout, não exija matemática avançada. Eu posso estar errado.
fonte
Depende da sua definição de avançado e de que tipo de IA você deseja estudar.
Muitos problemas na IA são comprovadamente intratáveis - soluções ótimas para POMDPs são comprovadamente NP-completas, soluções ótimas para DEC-POMDPs são comprovadamente NEXP-completas etc. Então, se houver alguma inovação inesperada na teoria da complexidade, mais se sabe sobre algoritmos de aproximação e seus fundamentos teóricos, melhor. (Além da teoria da medida, etc, necessária para entender verdadeiramente a probabilidade bayesiana subjacente ao modelo POMDP.)
A inteligência artificial multiagente, em particular, cruza-se com a teoria dos jogos; portanto, conhecer a teoria dos jogos é útil, o que, por sua vez, depende da topologia, da teoria das medidas, etc. E da mesma forma, muitos problemas na teoria dos jogos são intratáveis. Alguns são até intratáveis sob aproximação e até compreensão, quando é possível aproximar-se de maneira útil, requer uma quantidade considerável de matemática para resolver.
(Observo que os teóricos dos jogos têm tido uma boa execução no campo da Nobel Economics, nos últimos anos, e isso é de natureza bastante matemática. Prevejo em vinte anos ímpares, os teóricos algorítmicos de hoje em dia serão praticamente os mesmos posição.)
fonte
As matemáticas envolvidas na IA não são avançadas e são ensinadas no nível de graduação. Os algoritmos de treinamento e inferências de IA estão no domínio da Ciência da Computação avançada.
É um pouco de um jogo de palavras. Alguma história também deve ser incluída ao pesquisar a IA.
Por exemplo, na nomenclatura atual, Deep Learning parece ser uma palavra-chave de tendência na IA.
O Deep Learning é o que costumava ser chamado de Redes Neurais Artificiais (RNAs), como o modelo de rede perceptron retropropagador de Hinton (BACKPROP) e similares.
A matemática envolvida com uma BACKPROP ANN (por exemplo) é essencialmente cálculo derivado para treinamento e álgebra matricial para inferir.
O novo aspecto do Deep Learning é a separação física de algoritmos de treinamento e inferências. As CPUs ainda são usadas para treinamento, mas agora as GPUs são usadas para inferir.
Por exemplo, matrizes de RNA são treinadas (ponderadas) por erros de retropropagação usando cálculo de derivada corretiva. Isso é mais adequado para CPUs e deve ser realizado apenas uma vez por implantação da ANN.
A ANN é então implantada em uma arquitetura GPU altamente paralelizada. A matemática de inferências avançadas envolve álgebra matricial intensiva, para a qual as GPUs são projetadas.
Isso aumenta o desempenho de uma ANN implantada em várias ordens de magnitude em comparação com implantações anteriores baseadas em CPU e pode ser dimensionado com mais eficiência em qualquer número de GPUs dedicadas.
Empresas como Nvidia e AMD estão agora comercializando chipsets de GPU de alto nível como Deep Learning Machines. O termo GPU sempre foi um pouco inadequado, uma vez que são realmente processadores paralelos de uso geral. Por exemplo, as GPUs também são chamadas de Bitminers em aplicativos de blockchain.
Então, o que era antigo agora é novo. A matemática envolvida não mudou, apenas a terminologia da Ciência da Computação (principalmente devido a pressões de marketing).
O termo AI sempre foi considerado um pouco sombrio. Deep Learning é agora o termo politicamente correto e favorável ao mercado.
fonte
A IA é um campo incrivelmente amplo, com uma ampla variedade de rotas possíveis. Alguns são extremamente matemáticos, outros mal tocam na matemática. Outros já deram boas respostas para as abordagens mais matemáticas. Dos assuntos que você apontou
"Álgebra linear, Probabilidade / estatística, Cálculo, algoritmos básicos e lógica"
- você basicamente precisa ou se beneficiará de todos eles. Muitas abordagens são pelo menos parcialmente diretamente baseadas em probabilidade e estatística - heurística, redes neurais, algoritmos genéticos, lógica nebulosa. O cálculo é igualmente útil - na IA ou na ciência da computação em geral, você o encontra em quase todos os lugares. Álgebra linear também é algo que você definitivamente precisa.
Os dois assuntos mais essenciais de uma perspectiva de CS / AI são algoritmos e lógica, algoritmos são o verdadeiro coração da ciência da computação, e lógica é a 'linguagem' subjacente dos algoritmos. A chave para aprender algoritmos é aprender a programar, proficiência e praticar na programação básica é um dos fundamentos mais importantes de quase todas as disciplinas de ciência da computação ou IA. A programação também é uma habilidade que as universidades nem sempre são particularmente boas no ensino. A lógica também é realmente essencial para a maioria dos ramos da IA; Lógica booleana, cálculo de predicados, lógica simbólica, teorias subjacentes da permutação, hierarquia de design, recursão, máquinas de estados finitos, máquinas de Turing, design de CPU, etc. Aqui estamos realmente nos afastando da matemática para a ciência da computação.
Estender o meu próprio campo de matemática 'IA forte' desempenha um papel subjacente, mas absolutamente essencial. Uma compreensão muito boa da matemática básica é provavelmente mais importante que a matemática superior, mas, na verdade, qualquer coisa que você pegar pode ser útil. O verdadeiro problema em um campo nascente como o Strong AI é que tudo está no ar e, portanto, o campo está em fluxo total.
Os assuntos que são potencialmente úteis incluem: redes neurais, algoritmos genéticos, neurologia, genética, psicologia, cibernética e robótica, teoria de gráficos 3D, teoria de processamento de imagens, design de jogos de computador, filosofia, teoria da arte, eletrônica digital, teoria lingüística. como esta leitura é uma das maneiras mais importantes de aprender. Alguns livros que foram pontos de partida para mim foram - The Emperors New Mind, de Roger Penrose, Eye and Brain, de RL Gregory, mas realmente percepções podem vir de quase qualquer lugar
fonte