Estou lendo os livros sobre regressão linear. Existem algumas frases sobre a norma L1 e L2. Eu os conheço, só não entendo por que a norma L1 para modelos esparsos. Alguém pode dar uma explicação
Inclusão de restrições adicionais (normalmente uma penalidade por complexidade) no processo de ajuste do modelo. Usado para evitar o ajuste excessivo / aprimorar a precisão preditiva.
Estou lendo os livros sobre regressão linear. Existem algumas frases sobre a norma L1 e L2. Eu os conheço, só não entendo por que a norma L1 para modelos esparsos. Alguém pode dar uma explicação
Estou procurando uma definição não técnica do laço e para que ele é
Eu tenho lido Elements of Statistical Learning e gostaria de saber por que o Lasso fornece seleção de variáveis e regressão de crista não. Ambos os métodos minimizam a soma residual dos quadrados e têm uma restrição nos possíveis valores dos parâmetros . Para o Lasso, a restrição é , enquanto no...
Ao contrário de outros artigos, achei a entrada da Wikipedia para este assunto ilegível para uma pessoa que não é matemática (como eu). Entendi a ideia básica de que você é a favor de modelos com menos regras. O que eu não entendo é como você passa de um conjunto de regras para uma 'pontuação de...
Eu continuo lendo isso e intuitivamente eu posso ver isso, mas como se passa da regularização L2 para dizer que este é um prior gaussiano analiticamente? O mesmo vale para dizer que L1 é equivalente a um anterior do Laplacean. Quaisquer outras referências seriam ótimas.
Para resolver problemas de seleção de modelos, vários métodos (LASSO, regressão de crista, etc.) reduzirão os coeficientes das variáveis preditivas em direção a zero. Estou procurando uma explicação intuitiva sobre por que isso melhora a capacidade preditiva. Se o verdadeiro efeito da variável...
Sempre que a regularização é usada, ela é frequentemente adicionada à função de custo, como na função de custo a seguir. Isso faz um sentido intuitivo para mim, pois minimiza o função de custo significa minimizar o erro (o termo esquerdo) e minimizar as magnitudes dos coeficientes (o termo...
Nas estatísticas tradicionais, durante a construção de um modelo, verificamos a multicolinearidade usando métodos como estimativas do fator de inflação de variância (VIF), mas no aprendizado de máquina, usamos a regularização para a seleção de recursos e não parecemos verificar se os recursos estão...
A regularização usando métodos como Ridge, Lasso, ElasticNet é bastante comum para regressão linear. Eu queria saber o seguinte: Esses métodos são aplicáveis à regressão logística? Em caso afirmativo, existem diferenças na maneira como elas precisam ser usadas para a regressão logística? Se esses...
Momentum é usado para diminuir as flutuações nas alterações de peso em iterações consecutivas:αα\alpha E(w)wηΔ ωEu( t + 1 ) = - η∂E∂WEu+ α Δ ωEu( T ) ,ΔωEu(t+1)=-η∂E∂WEu+αΔωEu(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), que é a função de erro, - o...
Estou tendo alguns problemas com a derivação da solução para regressão de crista. Conheço a solução de regressão sem o termo de regularização: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Porém, após adicionar o termo L2 à função cost, como é que a solução se...
Existem estudos empíricos que justifiquem o uso da regra de erro padrão em favor da parcimônia? Obviamente, depende do processo de geração de dados, mas qualquer coisa que analise um grande conjunto de conjuntos de dados seria uma leitura muito interessante. A "regra de erro padrão" é aplicada...
Na página 223 em Introdução ao aprendizado estatístico , os autores resumem as diferenças entre regressão de cordilheira e laço. Eles fornecem um exemplo (Figura 6.9) de quando "o laço tende a superar a regressão da crista em termos de viés, variância e MSE". Entendo por que o laço pode ser...
Um problema que eu vi com frequência levantado no contexto das redes neurais em geral, e das redes neurais profundas em particular, é que elas têm "fome de dados" - ou seja, elas não têm um bom desempenho, a menos que tenhamos um grande conjunto de dados com o qual treinar a rede. Meu entendimento...
Estou curioso para por que geralmente há apenas regularização de normas e . Existem provas de por que estas são melhores?L
Estou tentando ajustar um modelo de regressão linear multivariada com aproximadamente 60 variáveis preditivas e 30 observações, por isso estou usando o pacote glmnet para regressão regularizada porque p> n. Passei por documentação e outras perguntas, mas ainda não consigo interpretar os...
A regularização líquida elástica é sempre preferida à Lasso & Ridge, pois parece resolver as desvantagens desses métodos? Qual é a intuição e qual é a matemática por trás da rede
Como os métodos de regularização de cume, LASSO e elasticnet se comparam? Quais são as respectivas vantagens e desvantagens? Qualquer bom artigo técnico ou anotações de aula também serão apreciados.
Alguém pode recomendar uma boa exposição da teoria por trás da regressão de mínimos quadrados parciais (disponível on-line) para alguém que entende SVD e PCA? Procurei muitas fontes on-line e não encontrei nada que tivesse a combinação certa de rigor e acessibilidade. Analisei The Elements of...
Regularização de Tikhonov e regressão de crista são termos frequentemente usados como se fossem idênticos. É possível especificar exatamente qual é a