Estou procurando uma definição não técnica do laço e para que ele é
Inclusão de restrições adicionais (normalmente uma penalidade por complexidade) no processo de ajuste do modelo. Usado para evitar o ajuste excessivo / aprimorar a precisão preditiva.
Estou procurando uma definição não técnica do laço e para que ele é
Considere os três fenômenos a seguir. Paradoxo de Stein: dados alguns dados da distribuição normal multivariada em , a média da amostra não é um estimador muito bom da verdadeira média. Pode-se obter uma estimativa com erro quadrado médio mais baixo se reduzirmos todas as coordenadas da amostra...
A temporada de férias me deu a oportunidade de me aconchegar ao lado do fogo com Os elementos do aprendizado estatístico . Vindo de uma perspectiva econométrica (freqüentista), estou tendo problemas para entender os usos de métodos de encolhimento, como regressão de cume, laço e regressão de menor...
Entendo que a estimativa de regressão de crista é o que minimiza a soma residual do quadrado e uma penalidade no tamanho deββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[...
Para resolver problemas de seleção de modelos, vários métodos (LASSO, regressão de crista, etc.) reduzirão os coeficientes das variáveis preditivas em direção a zero. Estou procurando uma explicação intuitiva sobre por que isso melhora a capacidade preditiva. Se o verdadeiro efeito da variável...
Qual é a fórmula exata usada em R lm() para o quadrado R ajustado? Como eu posso interpretar isso? Fórmulas quadradas de r ajustadas Parece haver várias fórmulas para calcular o quadrado R ajustado. Wherry fórmula de: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} Fórmula de...
Eu li três razões principais para padronizar variáveis antes de algo como Lassoregressão: 1) Interpretabilidade dos coeficientes. 2) Capacidade de classificar a importância do coeficiente pela magnitude relativa das estimativas de coeficiente pós-retração. 3) Não há necessidade de...
L =1n∥∥y-Xβ∥∥2+ λ1 1∥ β∥1 1+ λ2∥ β∥22,eu=1 1n__y-Xβ__2+λ1 1__β__1 1+λ2__β__22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗= ( 1 + λ2) β^.β^∗=(1 1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Entretanto, o...
Certa vez, ouvi um método de usar o laço duas vezes (como um laço duplo) em que você executa o laço no conjunto original de variáveis, digamos S1, obtém um conjunto esparso chamado S2 e depois executa o laço novamente no conjunto S2 para obter o conjunto S3 . Existe um termo metodológico para isso?...
A regressão LASSO reduz os coeficientes para zero, fornecendo, assim, uma seleção de modelo eficaz. Eu acredito que em meus dados existem interações significativas entre covariáveis nominais e contínuas. Não necessariamente, porém, são os 'efeitos principais' do modelo verdadeiro significativos...
Para um modelo linear , o termo de retração é sempre .y= β0 0+ x β+ εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) Qual é o motivo pelo qual não termo de viés (interceptação) ? Devemos reduzir o termo de viés nos modelos de redes neurais?β0 0β0
Precisão é definida como: p = true positives / (true positives + false positives) É verdade que, como true positivese false positivesabordagem 0, a precisão se aproxima de 1? Mesma pergunta para recall: r = true positives / (true positives + false negatives) No momento, estou implementando...
Eu tenho lido sobre o estimador de James-Stein. É definido, nestas notas , como θ^= ( 1 - p - 2∥X∥2) Xθ^=(1-p-2__X__2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Li a prova, mas não entendo a seguinte declaração: Geometricamente, o estimador de James – Stein reduz cada componente de...
Eu tenho uma pergunta sobre o cálculo do fator de encolhimento de James-Stein no artigo de 1977 da Scientific American por Bradley Efron e Carl Morris, "Paradoxo de Estatísticas de Stein" . Reuni os dados para os jogadores de beisebol e eles são fornecidos abaixo: Name, avg45, avgSeason...
A regressão de Ridge estima parâmetros ββ\boldsymbol \beta em um modelo linear y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta por β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y, que λλ\lambda é um...
Se começarmos com um conjunto de dados , aplicar o Lasso a ele e obter uma solução , podemos aplicar o Lasso novamente ao conjunto de dados , onde é o conjunto de zero índices de , para obter uma solução, , chamada solução 'LASSO relaxada' (corrija-me se estiver errado!). A solução deve satisfazer...
Fico impressionado com a idéia do encolhimento de James-Stein (ou seja, que uma função não-linear de uma única observação de um vetor de normais possivelmente independentes pode ser um melhor estimador das médias das variáveis aleatórias, onde 'melhor' é medido por erro ao quadrado ) No entanto,...
Existem resultados analíticos ou artigos experimentais sobre a escolha ideal do coeficiente do termo de penalidade . Por ótimo , quero dizer um parâmetro que maximiza a probabilidade de selecionar o melhor modelo ou que minimiza a perda esperada. Estou perguntando porque muitas vezes é impraticável...
Já existe um post neste site falando sobre o mesmo problema: Por que o encolhimento funciona? Mas, embora as respostas sejam populares, não acredito que a essência da questão seja realmente abordada. É bastante claro que a introdução de algum viés na estimativa reduz a variação e pode melhorar a...
A palavra encolhimento é muito difundida em certos círculos. Mas o que é encolhimento, não parece haver uma definição clara. Se eu tenho uma série temporal (ou qualquer coleção de observações de algum processo), quais são as diferentes maneiras de medir algum tipo de retração empírica na série?...