Até que ponto a “matemática avançada” é necessária / útil na pesquisa de IA?

19

Atualmente, estou estudando matemática. No entanto, acho que não quero me tornar um matemático profissional no futuro. Estou pensando em aplicar meus conhecimentos de matemática para fazer pesquisas em inteligência artificial. No entanto, não tenho certeza de quantos cursos de matemática devo seguir. (E quais cursos de teoria de CS devo seguir.)

Com o Quora, aprendi que os assuntos Álgebra Linear, Estatística e Otimização Convexa são mais relevantes para o Aprendizado de Máquina (consulte esta pergunta). Outra pessoa mencionou que é necessário aprender Álgebra Linear, Probabilidade / Estatística, Cálculo, Algoritmos Básicos e Lógica para estudar a inteligência artificial (consulte esta pergunta).

Eu posso aprender sobre todos esses assuntos durante meus primeiros 1,5 anos de bacharel em matemática em nossa universidade.

Fiquei me perguntando, no entanto, se há algum graduado superior em matemática, mesmo no nível de pós-graduação, que seja útil ou até necessário para estudar inteligência artificial. E quanto às EDOs, PDEs, Topologia, Teoria das Medidas, Análise Linear, Análise de Fourier e Análise em Distribuidores?

Um livro que sugere que alguma matemática bastante avançada é útil no estudo da inteligência artificial é a teoria dos padrões: a análise estocástica dos sinais do mundo real de David Mumford e Agnes Desolneux (veja esta página). Ele inclui capítulos sobre cadeias de Markov, modelos gaussianos fragmentados, campos de Gibbs, variedades, grupos de mentiras e álgebras de mentiras e suas aplicações à teoria dos padrões. Até que ponto este livro é útil na pesquisa de IA?

Max Muller
fonte
22
nos meus 2 anos ou mais neste site, vi mais de meia dúzia de perguntas do tipo "que matemática preciso para ...". Que respostas são parecidas com o conteúdo do Princeton Companion to Mathematics. 1) A IA é um campo enorme, a matemática usada em seus subcampos tem todos os sabores; 2) Faça seus cursos básicos de matemática, escolha cursos mais avançados com base no interesse; 3) Pesquise em IA, encontre o que você gosta, encontre qual matemática é usada lá; 4) Não podemos saber a priori que matemática será útil para este ou aquele problema.
Sasho Nikolov

Respostas:

57

Eu não quero parecer condescendente, mas a matemática que você está estudando nos cursos de graduação e até de pós-graduação não é avançada. É o básico . O título da sua pergunta deve ser: A matemática "básica" é necessária / útil na pesquisa de IA? Então, devore o máximo que puder, nunca conheci um cientista da computação que se queixou de saber muita matemática, embora tenha conhecido muitos que se queixaram de não saber o suficiente. Lembro-me de ajudar um colega de pós-graduação em AI a entender um algoritmo no estilo de classificação de página. Era apenas uma álgebra linear bastante fácil para mim, mas ele sofreu porque não tinha noção do que eram os autovalores e autovetores. Imagine o que as pessoas de IA poderiam fazer se realmente soubessem muita matemática!

Eu ensino em um departamento de matemática e recebo regularmente solicitações de meus colegas de CS para recomendar cursos de matemática para doutorados em CS, porque preferem estudantes de matemática. Veja bem, é muito difícil aprender matemática por conta própria, mas a maioria dos aspectos da ciência da computação não é. Eu sei, eu era um estudante de matemática que entrou na escola de pós-graduação em CS. Claro, eu estava "atrasado" no conhecimento dos sistemas operacionais (apesar de ter um conhecimento decente do Unix e do VMS), mas estava muito à frente na "teoria". Não é uma situação simétrica.

Andrej Bauer
fonte
6
teoria das medidas e teoria das probabilidades são a base de todo o raciocínio probabilístico. A topologia tornou-se muito importante para a análise de dados topológicos. A análise de Fourier é importante para a teoria da aprendizagem (é usada para entender a sensibilidade das funções e o quão difícil é aprendê-las), e a aprendizagem múltipla requer uma compreensão profunda da geometria das múltiplas.
Suresh Venkat
2
@MaxMuller: E para continuar a lista, a teoria dos grupos e os álgebra (como álgebras de Lie) são amplamente utilizados no reconhecimento de padrões na teoria de decomposição de imagens onde a topologia é muito necessária (e há uma conexão profunda entre as álgebras de Lie e os coletores que você precisa). aprender ao longo do caminho). Livros como "Fundamentos do reconhecimento de padrões", de Monique Pavel, apresentam até a teoria das categorias e sua aplicação, o que também é extremamente importante na IA por seu uso nos fundamentos das linguagens formais e da teoria da prova (que pode ser uma teoria do raciocínio) ...
ex0du5
1
Cursos de pós-graduação últimos nível introdução, matemáticos aprender toda a sua matemática por conta própria (ou em grupos de leitura e seminários) .. isso não é tudo que difícil se você tem algumas fundações ... ok, pode ser difícil, mas não é impossível.
Sasho Nikolov 19/10/12
1
Max, eu também ensino Aikido. Não me lembro de nenhum aluno de Aikido perguntando "por que tenho que aprender o básico (como cair, como sair da linha de ataque)?" Às vezes, você precisa confiar um pouco que seus professores sabem o que estão fazendo. No entanto, serei o primeiro a admitir que ensinamos muita porcaria, especialmente nas escolas secundárias e primárias, onde a matemática é ensinada como se o objetivo fosse sufocar a curiosidade dos alunos. Mas no seu caso, os assuntos que você listou não são uma porcaria. Confie em mim.
21312 Andrej Bauer
13
E apenas mais um comentário. Se você aprender apenas matemática que já foi comprovadamente útil em alguma área do CS, nunca terá a chance de aplicar nova matemática. Você sempre estará para trás. A ciência é uma arte, não um trabalho das 9 às 5. Se você me perguntar "devo aprender física, quero entrar na IA", direi "absolutamente!" E se você perguntar "devo aprender sociologia, quero entrar na IA", minha resposta ainda será a mesma.
21312 Andrej Bauer
6

Max, aqui está uma lista (necessariamente) parcial:

Álgebra linear básica e probabilidade são necessárias em todo o lugar. Suponho que você não precise de referências para isso.

Que eu saiba, a análise de Fourier foi usada em algumas investigações relacionadas à teoria da aprendizagem. Confira este documento , por exemplo.

O conceito de aprendizado múltiplo está se popularizando e você pode começar a dar uma olhada nos trabalhos de Mikhail belkin e Partha Niyogi. Esta linha de trabalho requer a compreensão de vários conceitos relacionados a variedades e geometria riemanniana.

Há outro aspecto do aprendizado de máquina, que tem raízes mais profundas na estatística, a saber, Geometria da informação. Essa área está ligada a vários conceitos de geometria riemanniana, teoria da informação, informações de Fisher, etc. Um primo desse tipo de estudo pode ser encontrado na estatística algébrica - que é um campo nascente com muito potencial.

Sumio Watanabe, investigou uma fronteira diferente, a saber, a existência de singularidades em modelos de aprendizagem e como aplicar resultados profundos de resoluções da geometria algébrica para abordar muitas questões. Os resultados de Watanabe se baseiam fortemente no célebre trabalho de Heisuke Hironaka que lhe valeu a medalha Fields.

Suponho que estou omitindo muitas outras áreas que exigem matemática relativamente pesada. Mas, como Andrej apontou, a maioria deles provavelmente não se encontra nas fronteiras da matemática, mas são domínios relativamente mais antigos e estabelecidos.

De qualquer forma, no entanto, suponho que o atual estado da IA ​​que entrou na computação convencional - como nos sistemas de recomendação na Amazon ou nas bibliotecas de aprendizado de máquina encontradas no Apache Mahout, não exija matemática avançada. Eu posso estar errado.

Arnab
fonte
2

Depende da sua definição de avançado e de que tipo de IA você deseja estudar.

Muitos problemas na IA são comprovadamente intratáveis ​​- soluções ótimas para POMDPs são comprovadamente NP-completas, soluções ótimas para DEC-POMDPs são comprovadamente NEXP-completas etc. Então, se houver alguma inovação inesperada na teoria da complexidade, mais se sabe sobre algoritmos de aproximação e seus fundamentos teóricos, melhor. (Além da teoria da medida, etc, necessária para entender verdadeiramente a probabilidade bayesiana subjacente ao modelo POMDP.)

A inteligência artificial multiagente, em particular, cruza-se com a teoria dos jogos; portanto, conhecer a teoria dos jogos é útil, o que, por sua vez, depende da topologia, da teoria das medidas, etc. E da mesma forma, muitos problemas na teoria dos jogos são intratáveis. Alguns são até intratáveis ​​sob aproximação e até compreensão, quando é possível aproximar-se de maneira útil, requer uma quantidade considerável de matemática para resolver.

(Observo que os teóricos dos jogos têm tido uma boa execução no campo da Nobel Economics, nos últimos anos, e isso é de natureza bastante matemática. Prevejo em vinte anos ímpares, os teóricos algorítmicos de hoje em dia serão praticamente os mesmos posição.)

Novak
fonte
1

As matemáticas envolvidas na IA não são avançadas e são ensinadas no nível de graduação. Os algoritmos de treinamento e inferências de IA estão no domínio da Ciência da Computação avançada.

É um pouco de um jogo de palavras. Alguma história também deve ser incluída ao pesquisar a IA.

Por exemplo, na nomenclatura atual, Deep Learning parece ser uma palavra-chave de tendência na IA.

O Deep Learning é o que costumava ser chamado de Redes Neurais Artificiais (RNAs), como o modelo de rede perceptron retropropagador de Hinton (BACKPROP) e similares.

A matemática envolvida com uma BACKPROP ANN (por exemplo) é essencialmente cálculo derivado para treinamento e álgebra matricial para inferir.

O novo aspecto do Deep Learning é a separação física de algoritmos de treinamento e inferências. As CPUs ainda são usadas para treinamento, mas agora as GPUs são usadas para inferir.

Por exemplo, matrizes de RNA são treinadas (ponderadas) por erros de retropropagação usando cálculo de derivada corretiva. Isso é mais adequado para CPUs e deve ser realizado apenas uma vez por implantação da ANN.

A ANN é então implantada em uma arquitetura GPU altamente paralelizada. A matemática de inferências avançadas envolve álgebra matricial intensiva, para a qual as GPUs são projetadas.

Isso aumenta o desempenho de uma ANN implantada em várias ordens de magnitude em comparação com implantações anteriores baseadas em CPU e pode ser dimensionado com mais eficiência em qualquer número de GPUs dedicadas.

Empresas como Nvidia e AMD estão agora comercializando chipsets de GPU de alto nível como Deep Learning Machines. O termo GPU sempre foi um pouco inadequado, uma vez que são realmente processadores paralelos de uso geral. Por exemplo, as GPUs também são chamadas de Bitminers em aplicativos de blockchain.

Então, o que era antigo agora é novo. A matemática envolvida não mudou, apenas a terminologia da Ciência da Computação (principalmente devido a pressões de marketing).

O termo AI sempre foi considerado um pouco sombrio. Deep Learning é agora o termo politicamente correto e favorável ao mercado.

Birkensocks
fonte
2
Uma resposta anterior já deu contra-exemplos à sua reivindicação na primeira frase. (Existem muitas outras também.) Você leu as respostas anteriores antes de postar? Convém editar esta resposta para restringir suas reivindicações.
DW
2
Sua afirmação de que "as CPUs ainda são usadas para treinamento [redes profundas], mas agora as GPUs são usadas para inferir" é bastante enganadora (se não incorreta). Todos treinam redes neurais modernas em GPUs. A maioria das pessoas também os implanta em GPUs, mas alguns ambientes de implantação (por exemplo, alguns celulares) ainda usam CPUs.
26817 Mike Izbicki
Eu concordo com o Mike. "GPUs são usados para treinamento e CPUs para inferência" é menos incorreta do que dizer que "CPUs são usados para treinamento e GPUs para inferência"
ASDF
As arquiteturas do @MikeIzbicki Pipeline, como CUDA, OpenCL, etc, são necessárias para o treinamento em Deep Learning, que depende muito dos núcleos da CPU para correção de erros. Os pipelines de inferência requerem apenas núcleos da CPU para alimentar e colher os núcleos da GPU. A eficiência energética e térmica é o objetivo, e é por isso que o equilíbrio entre os tipos principais muda entre treinamento e inferências. Foi o que eu já disse.
Birkensocks
-1

A IA é um campo incrivelmente amplo, com uma ampla variedade de rotas possíveis. Alguns são extremamente matemáticos, outros mal tocam na matemática. Outros já deram boas respostas para as abordagens mais matemáticas. Dos assuntos que você apontou

"Álgebra linear, Probabilidade / estatística, Cálculo, algoritmos básicos e lógica"

- você basicamente precisa ou se beneficiará de todos eles. Muitas abordagens são pelo menos parcialmente diretamente baseadas em probabilidade e estatística - heurística, redes neurais, algoritmos genéticos, lógica nebulosa. O cálculo é igualmente útil - na IA ou na ciência da computação em geral, você o encontra em quase todos os lugares. Álgebra linear também é algo que você definitivamente precisa.

Os dois assuntos mais essenciais de uma perspectiva de CS / AI são algoritmos e lógica, algoritmos são o verdadeiro coração da ciência da computação, e lógica é a 'linguagem' subjacente dos algoritmos. A chave para aprender algoritmos é aprender a programar, proficiência e praticar na programação básica é um dos fundamentos mais importantes de quase todas as disciplinas de ciência da computação ou IA. A programação também é uma habilidade que as universidades nem sempre são particularmente boas no ensino. A lógica também é realmente essencial para a maioria dos ramos da IA; Lógica booleana, cálculo de predicados, lógica simbólica, teorias subjacentes da permutação, hierarquia de design, recursão, máquinas de estados finitos, máquinas de Turing, design de CPU, etc. Aqui estamos realmente nos afastando da matemática para a ciência da computação.

Estender o meu próprio campo de matemática 'IA forte' desempenha um papel subjacente, mas absolutamente essencial. Uma compreensão muito boa da matemática básica é provavelmente mais importante que a matemática superior, mas, na verdade, qualquer coisa que você pegar pode ser útil. O verdadeiro problema em um campo nascente como o Strong AI é que tudo está no ar e, portanto, o campo está em fluxo total.
Os assuntos que são potencialmente úteis incluem: redes neurais, algoritmos genéticos, neurologia, genética, psicologia, cibernética e robótica, teoria de gráficos 3D, teoria de processamento de imagens, design de jogos de computador, filosofia, teoria da arte, eletrônica digital, teoria lingüística. como esta leitura é uma das maneiras mais importantes de aprender. Alguns livros que foram pontos de partida para mim foram - The Emperors New Mind, de Roger Penrose, Eye and Brain, de RL Gregory, mas realmente percepções podem vir de quase qualquer lugar

Robert Lucien Howe
fonte