Realmente realizamos análises de regressão multivariada com * milhão * coeficientes / variáveis ​​independentes?

18

Estou gastando algum tempo aprendendo aprendizado de máquina (desculpe a recursão :) e não pude deixar de ficar intrigado com a regra geral de escolher Gradient Descent em vez de resolver equações diretas para calcular coeficientes de regressão, no caso de regressão linear multivariada.

Regra prática: se o número de recursos (coeficientes de leitura / variáveis ​​independentes) estiver entre ou acima de um milhão, vá com Gradient Descent, caso contrário, o cálculo inverso da matriz é razoavelmente gerenciável em hardware comum e, portanto, o cálculo direto dos coeficientes deve ter um desempenho suficiente. .10,000-1,000,000

Em termos computacionais, eu recebo as compensações / limitações. Mas, do ponto de vista estatístico, calculamos realmente os modelos com tantos coeficientes de todos os tempos? Se eu me lembro das minhas aulas de regressão linear multivariada na escola, fomos advertidos contra o uso de muitas variáveis ​​independentes, pois elas podem ter um impacto muito insignificante na variável dependente ou suas distribuições não obedeceriam às suposições que fazemos sobre os dados. Mesmo se eu expandisse minha mente para pensar em "muitos IVs", ainda não teria pensado em milhões .

Questões):

  • Isso realmente acontece ou é uma questão teórica?
  • Qual é o sentido de analisar um milhão de IVs? Isso realmente nos dá tanto aumento no valor das informações obtidas em vez de ignorá-las?
  • Ou é porque, inicialmente, não temos idéia do que é útil, então executamos a maldita regressão para ver o que é útil e a partir daí e possivelmente podamos o conjunto de IVs?

Eu ainda acredito que apenas porque podemos analisar "tudo" não significa realmente que devemos jogá-lo em um solucionador (ou faz) e algumas das minhas perguntas anteriores refletem pontos de vista semelhantes.

Ainda estou para terminar o curso e posso estar fazendo a pergunta em breve, mas simplesmente não consigo tirar esse pensamento do "Porquê" da minha cabeça e estou tentando entendê-lo da melhor maneira possível.

Doutorado
fonte

Respostas:

14

Isso realmente acontece ou é uma questão teórica?

Acontece, veja qualquer modelo popular de aprendizagem profunda para visão computacional. Digamos, a alexnet tem uma conexão densa entre 2048 e 2048 unidades, ou seja, 4 milhões de coeficientes.

Qual é o sentido de analisar um milhão de IVs? Isso realmente nos dá tanto aumento no valor das informações obtidas em vez de ignorá-las?

Se você estiver analisando dados altamente categóricos (por exemplo, dados de anúncios na Internet ), seu modelo precisará manter algumas 'descrições' significativas para cada categoria (por exemplo, cidade, ID da página, nome do site, ID do anúncio, ID do usuário etc.), o valor real O tamanho da 'descrição' depende do modelo de ML selecionado.

Mesmo a regressão logística simples terá dezenas de milhares de parâmetros a serem ajustados (um por categoria). Modelos mais avançados, como máquinas de fatoração, terão mais vezes.

Ou é porque, inicialmente, não temos idéia do que é útil, então executamos a maldita regressão para ver o que é útil e a partir daí e possivelmente podamos o conjunto de IVs?

Na verdade, a maioria dos parâmetros ajustados nesses modelos pode ser descartada, mas você não pode saber disso de antemão, portanto, deixa o problema de definir quais parâmetros são importantes para o aprendizado de máquina e impõe algumas regularizações para colocar 'limite flexível' no número efetivo de parâmetros para ficar.

... e acho que você encontrará esses exemplos mais adiante no seu curso de ML.

Alleo
fonte