Por que a multicolinearidade não é verificada nas estatísticas modernas / aprendizado de máquina

44

Nas estatísticas tradicionais, durante a construção de um modelo, verificamos a multicolinearidade usando métodos como estimativas do fator de inflação de variância (VIF), mas no aprendizado de máquina, usamos a regularização para a seleção de recursos e não parecemos verificar se os recursos estão correlacionados em absoluto. Por que nós fazemos isso?

do utilizador
fonte

Respostas:

51

Considerar multicolinearias é importante na análise de regressão porque, em extremos , incide diretamente sobre se seus coeficientes são ou não identificados exclusivamente nos dados. Em casos menos graves, ainda pode mexer com suas estimativas de coeficiente; pequenas mudanças nos dados utilizados para a estimativa podem causar oscilações selvagens nos coeficientes estimados. Isso pode ser problemático do ponto de vista inferencial: se duas variáveis ​​são altamente correlacionadas, os aumentos em uma podem ser compensados ​​por diminuições na outra, de modo que o efeito combinado é negar uma à outra. Com mais de duas variáveis, o efeito pode ser ainda mais sutil, mas se as previsões forem estáveis, isso geralmente é suficiente para aplicativos de aprendizado de máquina.

Considere por que regularizamos em um contexto de regressão: precisamos restringir o modelo a ser muito flexível. A aplicação da quantidade correta de regularização aumentará ligeiramente o viés para uma maior redução na variação. O exemplo clássico disso é adicionar termos polinomiais e efeitos de interação a uma regressão: no caso degenerado, a equação de previsão interpolará pontos de dados, mas provavelmente será terrível ao tentar prever os valores de pontos de dados não vistos. A redução desses coeficientes provavelmente minimizará ou eliminará completamente alguns desses coeficientes e melhorará a generalização.

Uma floresta aleatória, no entanto, pode ser vista como tendo um parâmetro de regularização através do número de variáveis ​​amostradas em cada divisão: você divide melhor quanto maior, maior mtry(mais recursos para escolher; algumas são melhores que outras), mas isso também torna cada árvore mais altamente correlacionada entre si, mitigando um pouco o efeito diversificador da estimativa de várias árvores em primeiro lugar. Esse dilema obriga a encontrar o equilíbrio certo, geralmente alcançado usando a validação cruzada. É importante ressaltar que, ao contrário de uma análise de regressão, nenhuma parte do modelo de floresta aleatória é prejudicada por variáveis ​​altamente colineares: mesmo que duas das variáveis ​​forneçam a mesma pureza do nó filho, você pode simplesmente escolher uma sem diminuir a qualidade do resultado.

Da mesma forma, para algo como um SVM, você pode incluir mais preditores do que recursos, porque o truque do kernel permite operar exclusivamente no produto interno desses vetores de recursos. Ter mais recursos do que observações seria um problema nas regressões, mas o truque do kernel significa que apenas estimamos um coeficiente para cada exemplo, enquanto o parâmetro de regularização reduz a flexibilidade da solução - o que é decididamente uma coisa boa, pois estimar parâmetros paraCNNas observações de maneira irrestrita sempre produzirão um modelo perfeito para os dados de teste - e fazemos um círculo completo, de volta ao cenário de regressão cume / LASSO / rede elástica, onde temos a flexibilidade do modelo restrita como uma verificação contra um modelo excessivamente otimista. Uma análise das condições KKT do problema SVM revela que a solução SVM é única, portanto, não precisamos nos preocupar com os problemas de identificação que surgiram no caso de regressão.

Por fim, considere o impacto real da multicolinearidade. Ele não altera o poder preditivo do modelo (pelo menos nos dados de treinamento), mas estraga nossas estimativas de coeficiente. Na maioria dos aplicativos do ML, que não se preocupam com coeficientes próprios, apenas a perda das previsões do nosso modelo. Portanto, nesse sentido, verificar o VIF na verdade não responde a uma pergunta conseqüente. (Mas se uma leve alteração nos dados causar uma enorme flutuação nos coeficientes [um sintoma clássico da multicolinearidade], também poderá alterar as previsões, caso em que nos importamos - mas tudo isso [esperamos!] É caracterizado quando execute a validação cruzada, que faz parte do processo de modelagem.) Uma regressão é mais facilmente interpretada, mas a interpretação pode não ser o objetivo mais importante para algumas tarefas.

Restabelecer Monica
fonte
11
Para modelagem de regressão causal, usando técnicas como pontuação de propensão ou ajuste de regressão, a colinearidade pode ser um problema mesmo para previsão, porque geralmente o objetivo é ajustar um modelo exclusivamente a um grupo controle / não exposto e, em seguida, estimar os resultados usando esse modelo em um experimento experimental. grupo, ou então combine os dois grupos, mas use uma variável indicadora para medir o efeito, controlando outros fatores, de estar no grupo experimental.
Ely
11
Se a colinearidade criar erros nos coeficientes, a regressão estendida para o grupo experimental não funcionará. Da mesma forma, a estimativa do coeficiente para a variável indicadora de ter recebido tratamento pode ser descartada, se houver uma única regressão nas duas subamostras. As técnicas modernas de aprendizado de máquina geralmente não são usadas para analisar esses tipos de problemas de causalidade e, portanto, ninguém teve que enfrentar a necessidade de ferramentas para dar conta disso.
Ely
@ely, no seu primeiro exemplo, a colinearidade (entre as covariáveis, não o tratamento) não causa um problema, porque novamente o objetivo é a previsão dos resultados contrafactuais, e a colinearidade não é um problema com a previsão. Além disso, métodos modernos de ML são freqüentemente usados ​​em inferência causal; modelagem reforçada generalizada e florestas aleatórias são amplamente usadas para estimar as pontuações de propensão, e o TMLE usa métodos de ML para imputar os resultados contrafactuais. Eu argumentaria que uma força dos métodos causais é que a colinearidade geralmente não é um problema para eles.
Noah
@Noah Geralmente, é a interpretação do coeficiente de exposição que importa (e também a interpretação dos outros efeitos estimados), e não apenas a precisão bruta da previsão. Sei que meu comentário não deixou isso claro, mas é por isso que é um problema. Se a previsão geral é boa, mas não é motivada por estar realmente relacionada ao coeficiente estimado para a exposição, geralmente é um modelo indesejável para inferência causal.
Ely
21

O motivo é que os objetivos da "estatística tradicional" são diferentes de muitas técnicas de aprendizado de máquina.

Por "estatísticas tradicionais", presumo que você queira dizer regressão e suas variantes. Na regressão, estamos tentando entender o impacto que as variáveis ​​independentes têm sobre a variável dependente. Se houver uma forte multicolinearidade, isso simplesmente não é possível. Nenhum algoritmo vai corrigir isso. Se o estudo estiver correlacionado com a frequência e as notas das aulas, não podemos saber o que realmente está causando o aumento das notas - frequência ou estudos.

No entanto, nas técnicas de Machine Learning que se concentram na precisão preditiva, tudo o que importa é como podemos usar um conjunto de variáveis ​​para prever outro conjunto. Não nos importamos com o impacto que essas variáveis ​​têm umas nas outras.

Basicamente, o fato de não verificarmos a multicolinearidade nas técnicas de Machine Learning não é uma conseqüência do algoritmo, é uma consequência do objetivo. Você pode ver isso observando que uma forte colinearidade entre variáveis ​​não prejudica a precisão preditiva dos métodos de regressão.

TrynnaDoStat
fonte
11

Parece haver uma suposição subjacente aqui de que não verificar a colinearidade é uma prática razoável ou até melhor. Isso parece falho. Por exemplo, verificar a perfeita colinearidade em um conjunto de dados com muitos preditores revelará se duas variáveis ​​são realmente a mesma coisa, por exemplo, data e idade de nascimento (exemplo de Dormann et al. (2013), Ecography , 36 , 1, pp 27-46 ) Às vezes, também vi a questão de preditores perfeitamente correlacionados surgir nas competições do Kaggle, onde os concorrentes no fórum tentam eliminar os preditores em potencial que foram anonimizados (ou seja, o rótulo do preditor está oculto, um problema comum nas competições do tipo Kaggle e Kaggle).

Também existe uma atividade no aprendizado de máquina para selecionar preditores - a identificação de preditores altamente correlacionados pode permitir que o trabalhador encontre preditores que sejam proxies de outra variável subjacente (oculta) e, finalmente, encontre uma variável que faça o melhor trabalho de representar a variável latente ou alternativamente, sugerir variáveis ​​que podem ser combinadas (por exemplo, via PCA).

Portanto, eu sugeriria que, embora os métodos de aprendizado de máquina tenham sido geralmente (ou pelo menos frequentemente) projetados para serem robustos diante de preditores correlacionados, entender o grau em que os preditores estão correlacionados é frequentemente uma etapa útil na produção de um modelo robusto e preciso , e é uma ajuda útil para obter um modelo otimizado.

Robert de Graaf
fonte
9

A questão principal da multicolinearidade é que ela atrapalha os coeficientes (betas) de variáveis ​​independentes. É por isso que é um problema sério quando você estuda as relações entre variáveis, estabelece causalidade etc.

No entanto, se você não está interessado em entender tanto o fenômeno, mas se concentra apenas na previsão e previsão, a multicolinearidade é menos um problema. Ou pelo menos é o que as pessoas pensam sobre isso.

Não estou falando de multicolinearidade perfeita aqui, que é uma questão técnica ou de identificação. Tecnicamente, significa simplesmente que a matriz de design leva à singularidade e a solução não está definida.

Aksakal
fonte
4
Mesmo com perfeita colinearidade, as previsões são bem definidas.
whuber
@whuber, se você usa OLS, é provável que o pacote stat gere um erro, porque não poderá inverter a matriz. Os espertos podem abandonar um dos vars independentes e seguir em frente.
Aksakal
2
Se você usar inverso generalizado, essa singularidade não será um problema.
Analista
11
Não sigo sua lógica, Aksakal: você está tentando sugerir que as técnicas de aprendizado de máquina diferem das técnicas estatísticas, porque as primeiras não têm problemas com matrizes de classificação reduzida? É uma ideia interessante para explorar.
whuber
11
@user, a variável independente quase sempre está correlacionada, e normalmente está ok. Somente a multicolinearidade perfeita causa deficiência de classificação. A multicolinearidade se refere a correlações muito fortes e geralmente não é desejável, mas, como escrevi anteriormente, é uma questão benigna em muitos casos.
Aksakal
7

A regularização no aprendizado de máquina estabiliza os coeficientes de regressão, de modo que pelo menos o efeito da multicolinearidade é domado. Mas o mais importante é que, se você está buscando uma previsão (o que os aprendizes de máquina costumam fazer), o "problema" da multicolinearidade não era tão grande assim. É um problema quando você precisa estimar um coeficiente específico e não possui as informações.

Além disso, minha resposta para " Quando o LASSO seleciona preditores correlacionados " pode ser útil para você.

Ben Ogorek
fonte
1

Eu acho que a multicolinearidade deve ser verificada no aprendizado de máquina. Eis o motivo: suponha que você tenha dois recursos altamente correlacionados X e Y em nosso conjunto de dados. Isso significa que o plano de resposta não é confiável (uma pequena alteração nos dados pode ter efeitos drásticos na orientação do plano de resposta). O que implica que as previsões do modelo para pontos de dados distantesda linha, onde X e Y tendem a cair, não são confiáveis. Se você usar seu modelo para previsões para esses pontos, as previsões provavelmente serão muito ruins. Em outras palavras, quando você tem dois recursos altamente correlacionados, como modelo, está aprendendo um plano onde, na verdade, os dados caem em uma linha. Portanto, é importante remover recursos altamente correlacionados dos seus dados para evitar modelos não confiáveis ​​e previsões incorretas.

Sanyo Mn
fonte