Eu entendi que a principal diferença entre aprendizado de máquina e modelo estatístico é que, mais tarde, "assume" certo tipo de distribuição de dados e com base nesse paradigma de modelo diferente, bem como nos resultados estatísticos que obtemos (por exemplo, valores p, estatísticas F , t-stat, etc.). Mas, no caso de aprendizado de máquina, não nos preocupamos com a distribuição de dados e estamos mais interessados em previsão.
Quando eu estava examinando o documento Mllib, descobri que, para regressão linear, estamos especificando uma distribuição. Mas o Mllib é um pacote de aprendizado de máquina. Então, eu tenho as seguintes perguntas:
1) O meu entendimento entre ML e método estatístico está errado?
2) O spark está usando modelagem estatística para regressão linear e GLMs?
Obrigado!
Nota: Há muitas publicações maravilhosas sobre a diferença entre o aprendizado de máquina e o método estatístico. Mas isso está mais relacionado ao MLLIB.