Em um colóquio recente, o resumo do orador alegou que eles estavam usando aprendizado de máquina. Durante a palestra, a única coisa relacionada ao aprendizado de máquina foi que eles realizam regressão linear em seus dados. Depois de calcular os coeficientes de melhor ajuste no espaço de parâmetros 5D, eles compararam esses coeficientes em um sistema com os coeficientes de melhor ajuste de outros sistemas.
Quando é o aprendizado de máquina de regressão linear , em vez de simplesmente encontrar uma linha de melhor ajuste? (O resumo do pesquisador foi enganoso?)
Com toda a atenção que o aprendizado de máquina vem conquistando recentemente, parece importante fazer essas distinções.
Minha pergunta é como esta , exceto que essa pergunta pede a definição de "regressão linear", enquanto a minha pergunta quando a regressão linear (que possui um grande número de aplicações) pode ser apropriadamente chamada de "aprendizado de máquina".
Esclarecimentos
Não estou perguntando quando regressão linear é a mesma que aprendizado de máquina. Como alguns apontaram, um único algoritmo não constitui um campo de estudo. Eu estou perguntando quando é correto dizer que alguém está fazendo aprendizado de máquina quando o algoritmo que está usando é simplesmente uma regressão linear.
Todas as piadas de lado (veja os comentários), uma das razões pelas quais pergunto isso é porque não é ético dizer que alguém está aprendendo a máquina para adicionar algumas estrelas douradas ao seu nome, se elas não estão realmente aprendendo. (Muitos cientistas calculam algum tipo de linha que melhor se ajusta ao seu trabalho, mas isso não significa que eles estejam praticando o aprendizado de máquina.) Por outro lado, há claramente situações em que a regressão linear está sendo usada como parte do aprendizado de máquina. Estou procurando especialistas para me ajudar a classificar essas situações. ;-)
Respostas:
Respondendo à sua pergunta com uma pergunta: o que exatamente é o aprendizado de máquina? Trevor Hastie, Robert Tibshirani e Jerome Friedman em Os Elementos do Aprendizado Estatístico , Kevin P. Murphy em Aprendizado de Máquina Uma Perspectiva Probabilística , Christopher Bishop em Reconhecimento de Padrões e Aprendizado de Máquina , Ian Goodfellow, Yoshua Bengio e Aaron Courville em Deep Learning e vários outras "bíblias" de aprendizado de máquina mencionam a regressão linear como um dos "algoritmos" de aprendizado de máquina. O aprendizado de máquina é em parte um chavão para as estatísticas aplicadas, e a distinção entre estatística e aprendizado de máquina é muitas vezes embaçada.
fonte
A regressão linear é definitivamente um algoritmo que pode ser usado no aprendizado de máquina. Mas, reductio ad absurdum : qualquer pessoa com uma cópia do Excel pode ajustar-se a um modelo linear.
Mesmo nos restringindo a modelos lineares, há mais algumas coisas a considerar ao discutir o aprendizado de máquina:
A resposta curta, do meu ponto de vista, é que onde o aprendizado de máquina se desvia da modelagem estatística tradicional é na aplicação de força bruta e abordagens numéricas para a seleção de modelos, especialmente em domínios com uma grande quantidade de dados e um grande número de variáveis explicativas , com foco no poder preditivo, seguido por mais força bruta para validação do modelo.
fonte
Penso que a definição de Mitchell fornece uma maneira útil de fundamentar a discussão sobre aprendizado de máquina, uma espécie de primeiro princípio. Conforme reproduzido na Wikipedia :
Isso é útil de algumas maneiras. Primeiro, para sua pergunta imediata: Regressão é aprendizado de máquina quando sua tarefa é fornecer um valor estimado a partir de recursos preditivos em algum aplicativo. Seu desempenho deve melhorar, conforme medido pela média do quadrado (ou absoluto, etc.), quando ocorre mais dados.
Segundo, ajuda a delinear o aprendizado de máquina a partir de termos relacionados e seu uso como um chavão de marketing. Compare a tarefa acima com uma regressão inferencial padrão, na qual um analista interpreta os coeficientes para relacionamentos significativos. Aqui, o programa retorna um resumo: coeficientes, valores-p etc. Não se pode dizer que o programa melhore esse desempenho com a experiência; a tarefa é um cálculo elaborado.
Por fim, ajuda a unificar os subcampos do aprendizado de máquina, ambos aqueles comumente usados na exposição introdutória (supervisionada, não supervisionada) com outros, como aprendizado por reforço ou estimativa de densidade. (Cada um tem uma tarefa, medida de desempenho e conceito de experiência, se você pensar neles o suficiente.) Fornece, penso eu, uma definição mais rica que ajuda a delinear os dois campos sem reduzir desnecessariamente qualquer um. Como exemplo, "ML é para previsão, estatística para inferência" ignora as técnicas de aprendizado de máquina fora do aprendizado supervisionado e as técnicas estatísticas que se concentram na previsão.
fonte
Não há lei que diga que um marceneiro não pode usar uma serra de marceneiro.
Aprendizado de máquina e estatística são rótulos vagos, mas se bem definido, há muita sobreposição entre estatística e aprendizado de máquina. E isso vale para os métodos dessas duas áreas, bem como (e separadamente) para as pessoas que se rotulam com essas duas áreas. Mas, no que diz respeito à matemática, o aprendizado de máquina está inteiramente dentro do campo da estatística.
A regressão linear é um procedimento matemático muito bem definido. Costumo associá-lo à área de estatística e às pessoas que se autodenominam 'estatísticos' e àquelas que saem de programas acadêmicos com rótulos como 'estatística'. O SVM (Support Vector Machines) também é um procedimento matemático muito bem definido que possui algumas entradas e saídas semelhantes e resolve problemas semelhantes. Porém, costumo associá-lo à área de aprendizado de máquina e às pessoas que se autodenominam cientistas da computação ou pessoas que trabalham em inteligência artificial ou aprendizado de máquina, que tendem a ser consideradas parte da ciência da computação como disciplina.
Mas alguns estatísticos podem usar SVM e algumas pessoas de IA usam regressão logística. Só para esclarecer, é mais provável que um estatístico ou pesquisador de IA desenvolva um método do que realmente o use em prática.
Coloquei todos os métodos de aprendizado de máquina diretamente dentro do domínio da estatística. Mesmo coisas recentes como Deep Learning, RNNs, CNNs, LSTMs, CRFs. Um estatístico aplicado (bioestatístico, agrônomo) pode muito bem não estar familiarizado com eles. Todos esses são métodos de modelagem preditiva geralmente rotulados com 'aprendizado de máquina' e raramente associados a estatísticas. Mas eles são modelos preditivos, com a possibilidade de serem julgados usando métodos estatísticos.
No final, a regressão logística deve ser considerada parte do aprendizado de máquina.
Mas sim, eu vejo e sempre compartilho seu desagrado pela aplicação incorreta dessas palavras. A regressão linear é uma parte tão fundamental das coisas chamadas estatísticas que parece muito estranho e enganoso chamar seu uso de 'aprendizado de máquina' .
Para ilustrar, a regressão logística é matematicamente idêntica a uma rede de Deep Learning sem nós ocultos e a função logística como a função de ativação para o nó de saída único. Eu não chamaria a regressão logística de método de aprendizado de máquina, mas certamente é usado em contextos de aprendizado de máquina.
É principalmente uma questão de expectativa.
É como dizer, ao lavar uma janela com água que você está usando química quântica. Bem, sim, claro que isso não está tecnicamente errado, mas você está implicando muito mais do que o necessário.
Mas, na verdade, essa é exatamente uma diferença cultural versus uma diferença de substância. As conotações de uma palavra e associações com grupos de pessoas (LR não é totalmente ML!) Versus matemática e aplicações (LR é totalmente ML!).
fonte
A visão comum é que o aprendizado de máquina é composto por 4 áreas:
1) Redução de dimensionalidade
2) Agrupamento
3) Classificação
4) Regressão
Regressão linear é uma regressão. Depois que o modelo é treinado, ele pode ser usado para previsões, como qualquer outra, digamos, Regressão aleatória da floresta.
fonte
A regressão linear é uma técnica, enquanto o aprendizado de máquina é uma meta que pode ser alcançada por diferentes meios e técnicas.
Portanto, o desempenho da regressão é medido pelo quão próximo ele se ajusta a uma linha / curva esperada, enquanto o aprendizado de máquina é medido pelo quão bom ele pode resolver um determinado problema, com os meios necessários.
fonte
Argumentarei que a distinção entre aprendizado de máquina e inferência estatística é clara. Em resumo, aprendizado de máquina = previsão de observações futuras ; estatística = explicação.
Aqui está um exemplo do meu campo de interesse (medicina): ao desenvolver um medicamento, procuramos o (s) gene (s) que melhor explicam um estado da doença, com o objetivo de direcioná-lo ao medicamento. Usamos statistis para isso. Por outro lado, ao desenvolver testes de diagnóstico, por exemplo, prever se a droga ajudará um paciente, o objetivo é encontrar estritamente o melhor preditor do resultado futuro, mesmo que compreenda muitos genes e seja muito complicado de entender. Usamos o aprendizado de máquina para esse fim. Existem vários exemplos publicados [1], [2], [3], [4] mostrando que a presença do alvo da droga não é um bom preditor do resultado do tratamento, daí a distinção.
Com base nisso, é justo dizer que se está fazendo um aprendizado de máquina quando o objetivo é prever estritamente o resultado de observações futuras / nunca vistas antes. Se o objetivo é entender um fenômeno específico, isso é inferência estatística, não aprendizado de máquina. Como outros já apontaram, isso é verdade independentemente do método envolvido.
Para responder à sua pergunta: na pesquisa específica que você descreve, os cientistas compararam os papéis dos fatores (pesos) em diferentes modelos de regressão linear, não comparando a precisão do modelo. Portanto, não é preciso chamar o aprendizado de máquina de inferência.
[1] Messersmith WA, DJ de Ahnen. Alvo EGFR no câncer colorretal. O novo jornal inglês de medicina; 2008; 359; 17
[2] Pogue-Geile KL et al. Prevendo o grau de benefício do trastuzumabe adjuvante no ensaio NSABP B-31. J Natl Cancer Inst; 2013; 105: 1782-1788.
[3] Pazdur R. Aprovação da FDA para Vemurafenib. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Atualizado em 3 de julho de 2013.
[4] Ray T. Dois estudos da ASCO mostram o desafio de usar a sinalização MET como marcador preditivo em ensaios clínicos com drogas NSCLC. GenomeWeb, 11 de junho de 2014.
fonte
Pode ser útil chamar aprendizado de máquina por regressão linear, porque isso geralmente implica algumas coisas importantes sobre como você resolveu seu problema:
No entanto, se o seu modelo tem mais a intenção de explicar do que prever, e você verifica rigorosamente as suposições causais teóricas do seu modelo, etc., sim, é uma tolice chamá-lo de aprendizado de máquina.
fonte
É certo que qualquer resposta a esta pergunta é mais opinião do que fato objetivo, mas tentarei explicar minha lógica por que acho que a resposta nunca é . Qualquer especialista ou instrutor de aprendizado de máquina apenas revela sua ignorância ao representar a regressão linear como tal.
O delineamento de disciplinas acadêmicas é mais o delineamento de comunidades do que métodos. Disciplinas científicas emprestam métodos entre disciplinas o tempo todo. Além disso, no século 19 (quando a regressão linear foi desenvolvida) e antes disso, as disciplinas científicas não eram tão claramente delineadas como são hoje. Portanto, particularmente quando os métodos foram desenvolvidos no século XIX ou anterior, devemos ter o cuidado de atribuí-los a uma disciplina específica.
Dito isto, podemos observar a história de uma disciplina e concluir razoavelmente que métodos específicos "pertencem" a uma disciplina ou a outra. Ninguém diria hoje que o cálculo pertence ao campo da física, embora Newton, um dos inventores do cálculo, estivesse definitivamente tentando aplicar isso à física. O cálculo claramente pertence à disciplina da matemática, não da física. Isso ocorre porque o cálculo é um método matemático geral que pode ser usado completamente fora dos contextos da física.
Pelo mesmo raciocínio, a regressão linear pertence à disciplina de estatística, embora seja comumente usada como um exemplo simples de ajuste de dados a um modelo no contexto de aprendizado de máquina. Assim como o cálculo pode ser usado fora do contexto da física, a regressão linear pode (e é) usada fora do contexto do aprendizado de máquina.
Os instrutores de aprendizado de máquina seriam sábios em apontar que a regressão linear está em uso desde o final do século 19, muito antes de a noção moderna de aprendizado de máquina surgir. Eles também devem enfatizar que o aprendizado de máquina utiliza muitos conceitos de probabilidade e estatística, além de outras disciplinas (por exemplo, teoria da informação). No entanto, esses conceitos não representam eles próprios o aprendizado de máquina ou um "algoritmo" de aprendizado de máquina.
fonte
É a máquina, estúpido!
Não sou estatístico nem especialista em Big Data (TM). No entanto, eu diria que a distinção essencial é que o "aprendizado de máquina" requer "uma máquina". Em particular, implica agência . O resultado não será consumido sem pressa por um ser humano. Em vez disso, o resultado será a entrada para um ciclo fechado pelo qual um sistema automatizado melhora seu desempenho.
Sistema fechado
Isso está muito de acordo com a resposta de Sean Easter, mas eu só quero enfatizar que, em aplicações comerciais, uma máquina está observando os resultados e atuando neles . Um exemplo clássico é o algoritmo CineMatch, que foi o alvo do Prêmio Netflix. Um ser humano pode olhar para a saída do CineMatch e aprender recursos interessantes sobre os telespectadores. Mas não é por isso que existe. O objetivo do CineMatch é fornecer um mecanismo pelo qual os servidores da Netflix possam sugerir filmes para os clientes que eles irão gostar. A saída do modelo estatístico vai para o serviço de recomendação, que em última análise produz mais informações à medida que os clientes classificam os filmes, alguns dos quais foram selecionados por recomendação do CineMatch.
Sistema aberto
Por outro lado, se um pesquisador usa um algoritmo para produzir resultados estatísticos que são exibidos em uma apresentação a outros seres humanos, então esse pesquisador não está decididamente envolvido em aprendizado de máquina . Isso é, obviamente, para mim, aprendizado humano . A análise é realizada por uma máquina, mas não é uma máquina que está aprendendo , por si só. Agora, é "aprendizado de máquina", na medida em que um cérebro humano não experimentou todas as entradas da amostra e derivou os resultados estatísticos "biologicamente". Mas eu chamaria isso de "estatística" porque é exatamente isso que os estatísticos vêm fazendo desde que o campo foi inventado.
Conclusão
Assim, eu responderia a essa pergunta perguntando: "Quem consome os resultados?" Se a resposta é: "humanos", então são "estatísticas". Se a resposta for: "software", então é "aprendizado de máquina". E quando dizemos que "o software consome os resultados", não queremos dizer que o armazene em algum lugar para recuperação posterior. Queremos dizer que ele executa um comportamento que é determinado pelos resultados em um loop fechado .
fonte
Na minha opinião, pode-se falar de aprendizado de máquina quando uma máquina é programada para inferir parâmetros de algum modelo usando alguns dados.
Se uma regressão linear é feita por máquina, ela é qualificada.
Se feito à mão, não será.
Definições que dependem da prevalência de algum agente (como o Excel) ou melhoria iterativa (como sugere Sean Easter acima), de alguma forma tentar separá-lo das estatísticas ou dependendo do que fazer com os resultados serão inconsistentes, na minha opinião.
fonte