Posso dizer algo sobre a propensão a superajuste em (A) versus (B)?
Desde que as duas grades abranjam um intervalo suficiente, a finura da grade não tem nada a ver com a super adaptação neste problema (embora uma grade grosseira possa se desequilibrar se passar por um intervalo lucrativo). Não é como se testar muitos valores mudasse de alguma forma a aparência fora da amostra. * No caso dessas regressões penalizadas, definitivamente queremos otimizar nossa função de probabilidade penalizada para valores , e não importa como testamos muitos valores de , porque o desempenho fora da amostra para um conjunto de dados fixo e particionamento fixo é totalmente determinístico. Mais exatamente, a métrica fora da amostra não é alterada de acordo com quantos valoresλ λλλλvocê testa. Uma grade mais grossa pode significar que você pula o mínimo absoluto em sua métrica fora da amostra, mas encontrar o mínimo absoluto provavelmente não é desejável em primeiro lugar, porque os hiperparâmetros tendem a ser mal estimados e as propriedades finitas da amostra significam que os dados As limitações serão um ruído de origem nessa estimativa que sobrecarregará pequenas alterações na distância entre pontos de grade adjacentes: o erro padrão da sua estimativa tenderá a inundar as diferenças na finura da grade.
Se você estiver realmente preocupado com o fato de que a métrica de desempenho fora da amostra possa ser excessivamente otimista, você pode adotar a regra de 1 erro padrão, que seleciona o modelo mais regularizado dentro de 1 erro padrão do mínimo. Dessa forma, você está sendo um pouco mais conservador e escolhendo um modelo menos complexo.
Posso determinar a finura ideal da grade? Quão?
O algoritmo LARS não define a priori quais valores de devem ser verificados; em vez disso, é alterado continuamente e o algoritmo verifica os valores de para os quais um coeficiente vai de 0 a um valor diferente de zero. Esses valores deλ λ λλλλλonde um novo coeficiente é diferente de zero, são mantidos, com a observação de que os caminhos dos coeficientes são lineares por partes no caso do laço, para que não haja perda de informações apenas armazenando os nós nesse caso. LARS só funciona quando caminhos de coeficiente são linearmente por partes. A penalidade na cordilheira nunca reduz um coeficiente a zero precisamente, portanto todos os seus caminhos de coeficiente são suaves e sempre diferentes de zero; da mesma forma, regressões líquidas elásticas (excluindo o caso de regressões líquidas elásticas que também são regressões de laço).
Mas a maioria das pessoas usa o GLMNET porque geralmente é mais rápido. Para determinar qual grade do pesquisar, eu recomendo a leitura do artigo GLMNET "Caminhos de regularização para modelos lineares generalizados via descida de coordenadas", de Jerome Friedman, Trevor Hastie e Rob Tibshirani. Nele, eles desenvolvem um algoritmo muito eficiente para estimar regressões de crista, laço e rede elástica. O algoritmo verifica um valor de para o qual é o vetor zero e, em seguida, identifica um valor mínimo relação aλ max β λ min λ maxλλmaxβλminλmax. Finalmente, eles geram uma sequência de valores entre os dois uniformemente na escala de log. Essa grade é suficiente para a maioria dos propósitos, embora omita a propriedade que você saberá precisamente quando um coeficiente for estimado em um valor diferente de zero. As partidas a quente são usadas para fornecer soluções muito mais rapidamente e suportam muitos GLMs comuns.
* Você pode estar pensando sobre isso da perspectiva de uma rede neural artificial, onde a parada precoce às vezes é usada para realizar a regularização, mas esse é um problema totalmente não relacionado (ou seja, que o algoritmo de otimização é impedido de atingir o ideal, portanto o modelo é forçado a ser menos complexo).