Pergunta sobre padronização na regressão de cume

16

Ei pessoal, encontrei um ou dois trabalhos que usam regressão de cume (para dados de basquete). Sempre me disseram para padronizar minhas variáveis ​​se eu fizesse uma regressão de crista, mas simplesmente me disseram para fazer isso porque a crista era uma variante de escala (a regressão da crista não era realmente parte do nosso curso, por isso nosso professor a examinou).

Esses artigos que li não padronizaram suas variáveis, o que achei um pouco surpreendente. Eles também acabaram com grandes valores de lambda (em torno do nível 2000-4000) via validação cruzada, e me disseram que isso se deve à não padronização das variáveis.

Como exatamente deixar as variáveis ​​não padronizadas leva a altos valores lambda e também quais são as conseqüências de não padronizar as variáveis ​​em geral? É realmente um grande negócio?

Qualquer ajuda é muito apreciada.

l_davies93
fonte

Respostas:

18

A regressão de Ridge regulariza a regressão linear impondo uma penalidade no tamanho dos coeficientes. Assim, os coeficientes são reduzidos para zero e um para o outro. Mas quando isso acontece e se as variáveis ​​independentes não tiverem a mesma escala, o encolhimento não é justo. Duas variáveis ​​independentes com escalas diferentes terão contribuições diferentes para os termos penalizados, porque o termo penalizado é uma soma dos quadrados de todos os coeficientes. Para evitar esse tipo de problema, muitas vezes as variáveis ​​independentes são centralizadas e escalonadas para obter variação 1.

[Depois edite para responder ao comentário]

heEught . Agora, a altura humana pode ser medida em polegadas, metros ou quilômetros. Se medido em quilômetros, em comparação com a regressão linear padrão, acho que fornecerá um termo coeficiente muito maior do que se medido em milímetros.

O termo de penalização com lambda é o mesmo que expressar a função de perda quadrada em relação à soma dos coeficientes quadrados menores ou iguais a uma determinada constante. Isso significa que lambda maior dá muito espaço à soma quadrada de coeficientes e lambda menor, um espaço menor. Espaço maior ou menor significa valores absolutos maiores ou menores dos coeficientes.

Ao não usar a padronização, a adaptação ao modelo pode exigir grandes valores absolutos dos coeficientes. Obviamente, podemos ter um grande valor de coeficiente naturalmente, devido ao papel da variável no modelo. O que afirmo é que esse valor pode ter um valor inflado artificialmente devido à falta de escala. Portanto, o dimensionamento também diminui a necessidade de grandes valores de coeficientes. Assim, o valor ótimo de lambda seria geralmente menor, o que corresponde a uma menor soma dos valores quadrados dos coeficientes.

rapaio
fonte
Obrigado. Como a padronização não levaria a um erro-teste estimado mais alto (via validação cruzada) e, portanto, a um lambda mais necessário?
L_davies93
I anexa meu pensamento na resposta
rapaio
Eu sei que esta é uma questão de idade, mas você poderia explicar talvez por isso que o ajuste de parâmetros deve ficando maior, se transformarmos nossos dados de quilômetros para metros por exemplo
Leo96
1

Embora com quatro anos de atraso, espero que alguém se beneficie com isso ... Do jeito que eu entendi, coeff é o quanto a variável-alvo muda para uma mudança de unidade na variável independente (dy / dx). Vamos supor que estamos estudando a relação entre peso e altura e o peso é medido em kg. Quando usamos Quilômetros para altura, você pode imaginar a maioria dos pontos de dados (para altura humana) agrupados de perto. Assim, para uma pequena mudança fracionária na altura, haverá uma grande mudança no peso (assumindo o aumento do peso com a altura). A proporção dy / dx será enorme. Por outro lado, se a altura for medida em milímetros, os dados serão espalhados por toda parte nos atributos de altura. Uma mudança de unidade na altura não terá uma mudança significativa no peso dy / dx será muito pequena quase perto de 0.

user3358819
fonte