Eu me tornei um niilista quando se trata de classificações de importância variável (no contexto de modelos multivariados de todos os tipos).
Frequentemente, no decorrer do meu trabalho, me pedem para ajudar outra equipe a produzir uma classificação de importância variável ou produzir uma classificação de importância variável a partir do meu próprio trabalho. Em resposta a essas solicitações, faço as seguintes perguntas
Para que você gostaria dessa classificação de importância variável? O que você espera aprender com isso? Que tipo de decisão você gostaria de tomar ao usá-lo?
As respostas que recebo quase sempre se enquadram em uma de duas categorias
- Gostaria de saber a importância das diferentes variáveis no meu modelo na previsão da resposta.
- Eu gostaria de usá-lo para a seleção de recursos, removendo variáveis de baixa importância.
A primeira resposta é tautológica (eu gostaria de uma classificação de importância variável porque gostaria de uma classificação de importância variável). Devo assumir que essas classificações preenchem uma necessidade psicológica ao consumir a saída de um modelo multivariado. Tenho dificuldade em entender isso, pois a classificação das variáveis "importância" individualmente parece rejeitar implicitamente a natureza multidimensional do modelo em questão.
A segunda resposta reduz-se essencialmente a uma versão informal da seleção reversa , cujos pecados estatísticos estão bem documentados em outras partes do CrossValidated.
Também luto com a natureza mal definida dos rankings de importância. Parece haver pouco acordo sobre qual conceito subjacente o ranking deve medir, dando a eles um sabor muito ad hoc. Há muitas maneiras de atribuir uma pontuação ou classificação importante e geralmente sofrem de desvantagens e advertências:
- Eles podem ser altamente dependentes de algoritmos, como nos rankings de importância em florestas e gbms aleatórios.
- Eles podem ter uma variação extremamente alta, mudando drasticamente com perturbações nos dados subjacentes.
- Eles podem sofrer muito com a correlação nos preditores de entrada.
Então, com tudo o que foi dito, minha pergunta é: quais são alguns usos estatisticamente válidos de classificações de importância variável ou qual é um argumento convincente (para um estatístico ou um leigo) para a futilidade de tal desejo? Estou interessado em argumentos teóricos gerais e em estudos de caso, o que for mais eficaz para argumentar.
fonte
glmnet
disponível?Respostas:
Argumentei que importância variável é um conceito escorregadio , como essa pergunta propõe. O primeiro tipo tautológico de resposta que você obtém à sua pergunta e as esperanças irrealistas daqueles que interpretariam resultados de importância variável em termos de causalidade, conforme observado por @DexGroves, precisam de pouca elaboração.
Para ser justo com aqueles que usariam a seleção reversa, no entanto, até Frank Harrell permite isso como parte de uma estratégia de modelagem. Na página 97 de suas Estratégias de modelagem de regressão , 2ª edição (uma declaração semelhante está na página 131 das notas do curso associadas ):
Esse uso potencial limitado da seleção para trás, no entanto, é a etapa 13, a última etapa antes do modelo final (etapa 14). Vem bem depois dos primeiros passos cruciais:
Na minha experiência, as pessoas geralmente desejam ignorar a etapa 2 e deixar que algum procedimento automatizado substitua a aplicação inteligente do conhecimento do assunto. Isso pode levar a parte da ênfase colocada na importância variável.
O modelo completo da etapa 14 de Harrell é seguido por 5 etapas adicionais de validação e ajuste, com uma última etapa:
Como outras respostas observaram, há questões de ação, custo e simplicidade que entram na aplicação prática dos resultados da modelagem. Por exemplo, se eu desenvolver um novo biomarcador de câncer que melhore o prognóstico, mas que custa US $ 100.000 por teste, pode ser difícil convencer as seguradoras ou o governo a pagar pelo teste, a menos que seja espetacularmente útil. Portanto, não é irracional alguém querer se concentrar em variáveis que são "mais importantes" ou simplificar um modelo preciso em um que seja um pouco menos preciso, mas seja mais fácil ou mais barato de implementar.
Mas essa seleção de variáveis e simplificação de modelos devem ter um propósito específico , e acho que é aí que a dificuldade surge. A questão é semelhante à avaliação de esquemas de classificação apenas com base na porcentagem de casos classificados corretamente. Assim como erros de classificação diferentes podem ter custos diferentes, esquemas de simplificação de modelos diferentes podem ter custos diferentes que se equilibram com os benefícios esperados.
Portanto, acho que a questão a ser focada como analista é a capacidade de estimar e ilustrar esses custos e benefícios de maneira confiável com os procedimentos de modelagem estatística, em vez de se preocupar muito com um conceito abstrato de validade estatisticamente per se. Por exemplo, as páginas 157-8 das notas de classe de Harrell vinculadas acima têm um exemplo de uso do bootstrap para mostrar os caprichos dos preditores de classificação em mínimos quadrados; resultados semelhantes podem ser encontrados para conjuntos de variáveis selecionados pelo LASSO.
Se esse tipo de variabilidade na seleção de variáveis não atrapalhar uma aplicação prática específica do modelo, tudo bem. O trabalho é estimar quanto e a que tipo de problemas essa simplificação levará.
fonte
Isso é completamente anedótico, mas achei a importância variável útil para identificar erros ou fraquezas nos GBMs.
A importância variável fornece uma espécie de visão geral transversal do modelo que seria difícil obter de outra maneira. As variáveis mais altas da lista estão vendo mais atividade (se são ou não mais "importantes" é outra questão). Freqüentemente, um preditor de mau comportamento (por exemplo, algo prospectivo ou um fator de alta cardinalidade) dispara para o topo.
Se houver uma grande discordância entre a importância da variável de intuição e a importância da variável GBM, geralmente há algum conhecimento valioso a ser adquirido ou um erro a ser encontrado.
Eu acrescentaria uma terceira resposta ao "por que você está me pedindo isso?" pergunta, que é "porque eu quero entender o que é causal da minha resposta". Eep.
fonte
As classificações de importância variável têm um papel definido no mundo dos negócios aplicados sempre que houver necessidade de priorizar o número potencialmente grande de entradas em um processo, qualquer processo. Essas informações fornecem orientações em termos de uma estratégia focada para atacar um problema, trabalhando do mais para o menos importante, por exemplo, redução de custos do processo, uma vez que as variáveis são aproveitáveis e não são fatores fixos ou estruturais imunes à manipulação. No final do dia, isso deve resultar em algum tipo de teste A / B.
No entanto, a seu ponto de vista, Matt, e como em qualquer classificação ordinal, pequenas nuances ou diferenças entre variáveis podem ser ambíguas ou obscurecidas, prejudicando sua utilidade.
fonte
Estou totalmente de acordo com você do ponto de vista teórico. Mas, do ponto de vista prático, a importância variável é muito útil.
Vamos dar um exemplo no qual uma companhia de seguros deseja reduzir o número de perguntas em um questionário quantificando o risco de seus clientes. Quanto mais complicado o questionário, menor a probabilidade de os clientes comprarem seus produtos. Por esse motivo, eles desejam reduzir as questões menos úteis ao manter o nível de quantificação de riscos. A solução geralmente é usar importância variável para determinar quais perguntas serão excluídas do questionário (e ter "mais ou menos" a mesma previsão sobre o perfil de risco do possível cliente).
fonte