Você está confundindo maçãs com laranjas. Tudo bem, porque ambos são deliciosos.
A estimativa de probabilidade máxima é sobre o que você minimiza; a descida em gradiente é sobre como você minimiza.
Por que não o MLE para regressão linear?
De fato, a regressão linear é resolvida com a estimativa da máxima verossimilhança. O método padrão "minimizar a soma dos erros ao quadrado" é exatamente matematicamente equivalente à estimativa da máxima probabilidade usando uma distribuição normal condicional.
Por que não gradiente descendente para regressão logística?
Você pode resolver totalmente a regressão logística, minimizando a função de probabilidade usando a descida do gradiente. Na verdade, é um ótimo exercício, e eu recomendo que todos façam pelo menos uma vez.
A descida em gradiente não é o método padrão. Esse prêmio vai para os mínimos quadrados re-ponderados / método de Newton , que é um aprimoramento na descida do gradiente que leva em consideração também a segunda derivada. Esse método acaba por ter propriedades muito melhores do que a descida do gradiente, mas é mais difícil de entender e implementar.