Estado da arte em geral aprendendo com dados em '69

16

Estou tentando entender o contexto do famoso livro de Minsky e Papert "Perceptrons", de 1969, tão crítico para as redes neurais.

Até onde eu sei, ainda não havia outros algoritmos genéricos de aprendizado supervisionado, exceto o perceptron: as árvores de decisão começaram a se tornar realmente úteis apenas no final dos anos 70, florestas aleatórias e SVMs são dos anos 90. Parece que o método do canivete já era conhecido, mas não a validação k-cross (anos 70) ou o bootstrap (1979?).

A Wikipedia diz que os quadros estatísticos clássicos de Neyman-Pearson e Fisher ainda estavam em desacordo nos anos 50, apesar de as primeiras tentativas de descrever uma teoria híbrida já estarem nos anos 40.

Portanto, minha pergunta: quais eram os métodos mais avançados para resolver problemas gerais de previsão a partir de dados?

liori
fonte
6
A regressão logística começou a ser usada como é hoje no final dos anos 70 ', ver Cramer, JS (2002). "As origens da regressão logística", p. 12, papers.tinbergen.nl/02119.pdf
Tim
A regressão linear é provavelmente um "algoritmo genérico de aprendizado supervisionado" e foi originada no início do século XIX; regressão probit, pelo menos de alguma forma, aparentemente originada na década de 1930 . Você quer dizer algo em particular com "genérico" aqui?
Dougal
@ Dougal: apenas "encontrado para ser aplicável a um grande número de problemas em diferentes campos", em oposição a "projetado para resolver um problema específico". Estou tentando entender quais métodos seriam usados ​​por um estatístico ou um cientista de IA nos anos 60 ao enfrentar um novo problema desconhecido, sem trabalho prévio, quando a abordagem mais simples (como, eu acho, a regressão linear?) Não funciona e, portanto, procurar ferramentas mais complexas se justifica. Por exemplo, a floresta aleatória agora é um desses algoritmos: eles funcionam razoavelmente bem em muitos conjuntos de dados de vários campos.
Liori
Sim claro. Talvez valha a pena notar que a regressão probit é, na verdade, provavelmente um melhor modelo de classificação de uso geral do que os perceptrons originais. Se foi usado como tal na época, não sei. Os Perceptrons eram considerados diferentes na época porque eram agrupados com um algoritmo de otimização semelhante ao SGD que provavelmente os tornava mais escaláveis ​​para computadores da época do que probit, embora, é claro, hoje percebamos que essas escolhas são independentes.
Dougal 01/02
1
Para qualquer um aqui ainda interessado no tópico: Encontrei um estudo interessante do campo da sociologia da ciência sobre o tema das controvérsias do perceptron nos anos 60: Olazaran, "História Oficial da Controvérsia dos Perceptrons". O texto não responde à pergunta apresentada aqui, mas fornece o contexto sociológico para o livro de Minsky e Papert - um que me parece agora mais importante do que o estado atual da ciência.
Liori 10/04

Respostas:

12

Eu estava curioso sobre isso, então fiz algumas escavações. Fiquei surpreso ao descobrir que versões reconhecíveis de muitos algoritmos comuns de classificação já estavam disponíveis em 1969 ou nos próximos anos. Links e citações são fornecidos abaixo.

Vale ressaltar que a pesquisa em IA nem sempre foi tão focada na classificação. Havia muito interesse no planejamento e no raciocínio simbólico, que não estão mais em voga, e os dados rotulados eram muito mais difíceis de encontrar. Nem todos esses artigos podem estar amplamente disponíveis: por exemplo, o trabalho proto-SVM foi publicado principalmente em russo. Assim, isso pode superestimar o quanto um cientista comum sabia sobre classificação em 1969.


Análise discriminante

Em um artigo de 1936 nos Annals of Eugenics , Fisher descreveu um procedimento para encontrar uma função linear que discrimina entre três espécies de flores de íris, com base em suas dimensões de pétala e séptica. Esse artigo menciona que Fisher já havia aplicado uma técnica semelhante para prever o sexo das mandíbulas humanas (ossos da mandíbula) escavadas no Egito, em colaboração com E. S. Martin e Karl Pearson ( jstor ), bem como em um projeto separado de medição craniana. com uma senhorita Mildred Barnard (que eu não conseguia encontrar).

Regressão logística

A função logística em si é conhecida desde o século 19, mas principalmente como modelo para processos de saturação, como crescimento populacional ou reações bioquímicas. Tim vincula ao artigo de JS Cramer acima, que é uma boa história de seus primeiros dias. Em 1969, no entanto, Cox havia publicado a primeira edição do Analysis of Binary Data . Não consegui encontrar o original, mas uma edição posterior contém um capítulo inteiro sobre o uso da regressão logística para realizar a classificação. Por exemplo:

y=0 0,1xyy

k

kk

Redes neurais

Rosenblatt publicou um relatório técnico descrevendo o perceptron em 1957 e o seguiu com um livro , Principles of Neurodynamics, em 1962. As versões contínuas da retropropagação existem desde o início dos anos 1960, incluindo o trabalho de Kelley , Bryson e Bryson & Ho (revisado em 1975, mas o original é de 1969. No entanto, não foi aplicado às redes neurais até um pouco mais tarde, e os métodos para o treinamento de redes muito profundas são muito mais recentes.Este artigo da scholarpedia sobre aprendizado profundo tem mais informações.

Métodos estatísticos

Suspeito que o uso da regra de Bayes para classificação tenha sido descoberto e redescoberto muitas vezes - é uma consequência bastante natural da própria regra. A teoria da detecção de sinais desenvolveu uma estrutura quantitativa para decidir se uma determinada entrada era um "sinal" ou ruído. Algumas delas surgiram de pesquisas de radar após a Segunda Guerra Mundial, mas foram rapidamente adaptadas para experimentos perceptivos (por exemplo, por Green e Swets ). Não sei quem descobriu que assumir a independência entre os preditores funciona bem, mas o trabalho do início da década de 1970 parece ter explorado essa ideia, conforme resumido em neste artigo . Aliás, esse artigo também aponta que Naive Bayes já foi chamado de "idiota Bayes"!

Máquinas de vetores de suporte

Em 1962, Vapnik e Chervonenkis descreveram o "Algoritmo de retrato generalizado" ( escaneamento terrível, desculpe ), que parece um caso especial de uma máquina de vetores de suporte (ou, na verdade, um SVM de uma classe). Chervonenkis escreveu um artigo intitulado "Histórico precoce de máquinas de vetores de suporte", que descreve esse e seu trabalho de acompanhamento em mais detalhes. O truque do kernel (kernels como produtos internos) foi descrito por Aizerman, Braverman e Rozonoer em 1964. svms.org tem um pouco mais sobre a história das máquinas de vetores de suporte aqui .

Matt Krause
fonte
2
a análise de séries temporais também estava resolvendo alguns problemas interessantes. Os filtros ARMA e Kalman fizeram uma boa milhagem nos anos 50 e 60.
EngrStudent - Restabelece Monica
1
Interessante! Eu não sei muito sobre isso ou sua história, mas eu gostaria de uma resposta feliz se você escrevesse uma!
Matt Krause
3

AVISO LEGAL : Esta resposta está incompleta, mas não tenho tempo para atualizá-la agora. Espero trabalhar nisso ainda esta semana.


Questão:
quais eram os métodos mais avançados para resolver problemas de previsão de gêneros a partir de 1969?

Nota: isso não vai repetir a excelente resposta de 'Matt Krause'.

"Estado da arte" significa "melhor e mais moderno", mas não necessariamente reduzido à prática como norma da indústria. Em contraste, a lei de patentes dos EUA procura "não óbvio", conforme definido por "habilidade comum na arte". O "estado da arte" de 1969 provavelmente foi colocado em patente na próxima década.

É extremamente provável que as abordagens "melhores e mais brilhantes" de 1969 tenham sido usadas ou avaliadas para uso no ECHELON (1) (2) . Também mostrará na avaliação da outra superpotência matematicamente capaz da época, a URSS. (3) Eu levo vários anos para fabricar um satélite e, portanto, seria de esperar que a tecnologia ou o conteúdo dos próximos 5 anos de satélites de comunicação, telemetria ou reconhecimento mostrassem o estado da arte de 1969. Um exemplo é o satélite meteorológico Meteor-2 começou em 1967 e com o projeto preliminar concluído em 1971. (4) A engenharia das cargas espectrométricas e actinométricas é informada pelos recursos de processamento de dados do dia e pelo tratamento de dados "futuro próximo" previsto da época. O processamento desse tipo de dado é onde procurar as melhores práticas do período.

Uma leitura do "Journal of Optimization Theory and Applications" opera há vários anos e tem seu conteúdo acessível. (5) Considere esta (6) avaliação de estimadores ótimos e esta para estimadores recursivos. (7)

O projeto SETI, iniciado na década de 1970, provavelmente usava tecnologia e técnicas de baixo orçamento mais antigas para se adequar à tecnologia da época. A exploração das técnicas iniciais do SETI também pode falar com o que foi considerado líder por volta de 1969. Um candidato provável é o precursor da " mala do SETI ". A "mala SETI" usou o DSP para construir receptores de autocorrelação em ~ 130k canais de banda estreita. O pessoal do SETI estava procurando particularmente realizar análises de espectro. A abordagem foi usada offline primeiro para processar os dados do Aricebo. Mais tarde, foi conectado ao radiotelescópio Aricebo em 1978 para dados ao vivo e o resultado foi publicado no mesmo ano . O atual Suitecase-SETI foi concluído em 1982. (link)

A abordagem foi usar transformadas de Fourier longas off-line (~ 64k amostras) para pesquisar segmentos de largura de banda, incluindo manipulação de chirp e compensação em tempo real para deslocamento de Doppler. A abordagem "não é nova" e foram fornecidas referências, incluindo: Veja, por exemplo,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

As ferramentas usadas para prever o próximo estado, dado o estado anterior que eram populares na época, incluem:

  • Filtros Kalman (e derivativos) (Weiner, Bucy, não lineares ...)
  • Métodos de séries temporais (e derivativos)
  • Métodos do domínio da frequência (Fourier), incluindo filtragem e amplificação

"Palavras-chave" comuns (ou palavras-chave) incluem "adjunta, variacional, gradiente, ideal, segunda ordem e conjugado".

A premissa de um filtro Kalman é a mistura ideal de dados do mundo real com um modelo analítico e preditivo. Eles foram usados ​​para fazer coisas como mísseis atingirem um alvo em movimento.

EngrStudent
fonte
Obrigado por escrever isso - eu gosto da abordagem orientada a aplicativos que você adotou!
Matt Krause
@MattKrause - Eu ainda tenho um pouco de colocar nele. Imaginei que a abordagem orientada a aplicativos serviria a "arqueologia da matemática" neste caso. Vamos ver. O trabalho me faz querer construir uma "mala-SETI" e usá-la para olhar ao redor do meu ambiente humano por toda a vida, apenas para ter uma idéia do que as ferramentas de 50 anos estavam fazendo.
EngrStudent - Reintegrar Monica