Por que as transformações de potência ou log não são ensinadas muito no aprendizado de máquina?

24

O aprendizado de máquina (ML) usa fortemente técnicas de regressão linear e logística. Ele também se baseia em técnicas de engenharia recurso ( feature transform, kernel, etc.).

Porque é que nada sobre variable transformation(por exemplo power transformation) mencionados no ML? (Por exemplo, eu nunca ouvi falar em criar raiz ou log para recursos, eles geralmente usam polinômios ou RBFs.) Da mesma forma, por que os especialistas em ML não se importam com as transformações de recursos para a variável dependente? (Por exemplo, eu nunca ouvi falar em aceitar a transformação de log de y; eles simplesmente não transformam y.)

Edits: Talvez a pergunta não seja definitivamente, minha verdadeira pergunta é "a transformação de poder em variáveis ​​não é importante no ML?"

WeiChing Lin
fonte
4
Eu gostaria de saber por que isso foi rebaixado; é realmente uma pergunta interessante.
shadowtalker
1
Eu acho que a maioria das pessoas teria feito um curso de regressão linear antes do primeiro curso de ML. Certamente, o curso LR das ações conteria um capítulo sobre essas coisas (transformações). Aliás, eu não diminuí a votação.
user603

Respostas:

12

O livro Modelagem Preditiva Aplicada de Kuhn e Johnson é um livro de aprendizado de máquina prático altamente conceituado, com uma grande seção sobre transformação variável, incluindo Box-Cox. Os autores afirmam que muitos algoritmos de aprendizado de máquina funcionam melhor se os recursos tiverem distribuições simétricas e unimodais. Transformar os recursos assim é uma parte importante da "engenharia de recursos".

Solha
fonte
8

Bem, da minha própria perspectiva, muitas vezes estou interessado na distribuição preditiva da variável resposta, em vez de apenas na média condicional e, nesse caso, é melhor usar uma probabilidade que represente mais corretamente a distribuição alvo. Por exemplo, eu gosto de usar modelos lineares kernelizados em vez de (digamos) suportar a regressão de vetores, porque posso usar uma probabilidade de Poisson, se quiser. Como muitas pessoas de aprendizado de máquina são bayesianas, suspeito que usar uma probabilidade diferente parecerá mais elegante do que transformações (escolher uma probabilidade apropriada geralmente é o primeiro passo).

Dikran Marsupial
fonte
0

Aqui estão os meus pensamentos posteriores.

Eu acho que é porque ML é em grande parte lidar com classificação, e a classificação não é necessária para transformar y (y é categórico). O ML geralmente lida com grandes variáveis ​​independentes (por exemplo, milhares em PNL) e a regressão logística não requer normalidade; Eu acho que é por isso que eles não usam a transformação de potência Box-Cox devido à consideração da velocidade. (nota: não estou familiarizado com a transformação de poder.)

WeiChing Lin
fonte