Para que são úteis as classificações de importância variável?

25

Eu me tornei um niilista quando se trata de classificações de importância variável (no contexto de modelos multivariados de todos os tipos).

Frequentemente, no decorrer do meu trabalho, me pedem para ajudar outra equipe a produzir uma classificação de importância variável ou produzir uma classificação de importância variável a partir do meu próprio trabalho. Em resposta a essas solicitações, faço as seguintes perguntas

Para que você gostaria dessa classificação de importância variável? O que você espera aprender com isso? Que tipo de decisão você gostaria de tomar ao usá-lo?

As respostas que recebo quase sempre se enquadram em uma de duas categorias

  • Gostaria de saber a importância das diferentes variáveis ​​no meu modelo na previsão da resposta.
  • Eu gostaria de usá-lo para a seleção de recursos, removendo variáveis ​​de baixa importância.

A primeira resposta é tautológica (eu gostaria de uma classificação de importância variável porque gostaria de uma classificação de importância variável). Devo assumir que essas classificações preenchem uma necessidade psicológica ao consumir a saída de um modelo multivariado. Tenho dificuldade em entender isso, pois a classificação das variáveis ​​"importância" individualmente parece rejeitar implicitamente a natureza multidimensional do modelo em questão.

A segunda resposta reduz-se essencialmente a uma versão informal da seleção reversa , cujos pecados estatísticos estão bem documentados em outras partes do CrossValidated.

Também luto com a natureza mal definida dos rankings de importância. Parece haver pouco acordo sobre qual conceito subjacente o ranking deve medir, dando a eles um sabor muito ad hoc. Há muitas maneiras de atribuir uma pontuação ou classificação importante e geralmente sofrem de desvantagens e advertências:

  • Eles podem ser altamente dependentes de algoritmos, como nos rankings de importância em florestas e gbms aleatórios.
  • Eles podem ter uma variação extremamente alta, mudando drasticamente com perturbações nos dados subjacentes.
  • Eles podem sofrer muito com a correlação nos preditores de entrada.

Então, com tudo o que foi dito, minha pergunta é: quais são alguns usos estatisticamente válidos de classificações de importância variável ou qual é um argumento convincente (para um estatístico ou um leigo) para a futilidade de tal desejo? Estou interessado em argumentos teóricos gerais e em estudos de caso, o que for mais eficaz para argumentar.

Matthew Drury
fonte
11
Usar importância variável (de algum procedimento sensato) para filtrar preditores fracos não parece uma péssima idéia. Você pode esclarecer por que acha que isso é ruim?
dsaxton
3
Suponho que, em geral, penso que muitos processos estatísticos não são dominados por preditores "importantes", mas pelo acúmulo de muitos efeitos pequenos. Por exemplo, o poder da regressão de crista pode ser explicado pelo reconhecimento explícito dessa estrutura. Dito de outra maneira, qual é a razão pela qual devemos acreditar, a priori, no conceito de "fraco preditor" e por que devemos filtrá-los? E por que devemos usar um procedimento tão informal para fazê-lo quando glmnetdisponível?
Matthew Drury
2
Em qualquer área em que não somos especialistas, queremos saber com o que é importante se preocupar! Muitos livros de negócios e gerenciamento parecem explicar detalhadamente que você identifica os problemas importantes e se concentra neles (sim, de fato). Suspeito que a falta de comunicação aqui geralmente comece com pessoas não estatísticas, supondo que haja uma maneira de quantificar a importância e que é tarefa das pessoas estatísticas saber como fazer isso e não as preocupar com o quão difícil é. Não sei como ser menos geral, mas algumas das discussões aqui parecem perder pontos-chave na sua pergunta.
23416 Nick Cox

Respostas:

8

Argumentei que importância variável é um conceito escorregadio , como essa pergunta propõe. O primeiro tipo tautológico de resposta que você obtém à sua pergunta e as esperanças irrealistas daqueles que interpretariam resultados de importância variável em termos de causalidade, conforme observado por @DexGroves, precisam de pouca elaboração.

Para ser justo com aqueles que usariam a seleção reversa, no entanto, até Frank Harrell permite isso como parte de uma estratégia de modelagem. Na página 97 de suas Estratégias de modelagem de regressão , 2ª edição (uma declaração semelhante está na página 131 das notas do curso associadas ):

  1. Faça uma seleção variável variável reduzida para trás se a parcimônia for mais importante que a precisão.

Esse uso potencial limitado da seleção para trás, no entanto, é a etapa 13, a última etapa antes do modelo final (etapa 14). Vem bem depois dos primeiros passos cruciais:

  1. Reúna o máximo possível de dados pertinentes e precisos, com amplas distribuições para valores preditores ...
  2. Formule boas hipóteses que levem à especificação de preditores candidatos relevantes e possíveis interações ...

Na minha experiência, as pessoas geralmente desejam ignorar a etapa 2 e deixar que algum procedimento automatizado substitua a aplicação inteligente do conhecimento do assunto. Isso pode levar a parte da ênfase colocada na importância variável.

O modelo completo da etapa 14 de Harrell é seguido por 5 etapas adicionais de validação e ajuste, com uma última etapa:

  1. Desenvolva simplificações para o modelo completo aproximando-o a qualquer grau de precisão desejado.

Como outras respostas observaram, há questões de ação, custo e simplicidade que entram na aplicação prática dos resultados da modelagem. Por exemplo, se eu desenvolver um novo biomarcador de câncer que melhore o prognóstico, mas que custa US $ 100.000 por teste, pode ser difícil convencer as seguradoras ou o governo a pagar pelo teste, a menos que seja espetacularmente útil. Portanto, não é irracional alguém querer se concentrar em variáveis ​​que são "mais importantes" ou simplificar um modelo preciso em um que seja um pouco menos preciso, mas seja mais fácil ou mais barato de implementar.

Mas essa seleção de variáveis ​​e simplificação de modelos devem ter um propósito específico , e acho que é aí que a dificuldade surge. A questão é semelhante à avaliação de esquemas de classificação apenas com base na porcentagem de casos classificados corretamente. Assim como erros de classificação diferentes podem ter custos diferentes, esquemas de simplificação de modelos diferentes podem ter custos diferentes que se equilibram com os benefícios esperados.

Portanto, acho que a questão a ser focada como analista é a capacidade de estimar e ilustrar esses custos e benefícios de maneira confiável com os procedimentos de modelagem estatística, em vez de se preocupar muito com um conceito abstrato de validade estatisticamente per se. Por exemplo, as páginas 157-8 das notas de classe de Harrell vinculadas acima têm um exemplo de uso do bootstrap para mostrar os caprichos dos preditores de classificação em mínimos quadrados; resultados semelhantes podem ser encontrados para conjuntos de variáveis ​​selecionados pelo LASSO.

Se esse tipo de variabilidade na seleção de variáveis ​​não atrapalhar uma aplicação prática específica do modelo, tudo bem. O trabalho é estimar quanto e a que tipo de problemas essa simplificação levará.

EdM
fonte
2
Essa é uma ótima resposta para o @EdM e é bastante consistente com as opiniões que desenvolvi sobre o assunto. Gosto especialmente de seus dois pontos: 1) preditores inaceitáveis ​​(por razões morais, regulatórias ou comerciais) devem ser eliminados antes da modelagem; 2) a simplificação final do modelo deve ser para um objetivo específico e a priori definido. Esses são essencialmente os pontos que geralmente estou tentando descontrair com as perguntas para meus parceiros de negócios.
Matthew Drury
Pr(β0 0)
Com isso dito, ainda me pergunto se existe algum conceito subjacente que os rankings de importância estão tentando capturar, ou se todos são apenas ataques ad hoc a um problema estatístico incerto.
Matthew Drury
11
@MatthewDrury, Frank Harrell fornece uma maneira baseada em princípios de avaliar a "importância variável", com base na fração de probabilidade logarítmica explicada por cada variável. Não é isso que indivíduos menos sofisticados provavelmente querem dizer com a frase. Como você, usei a fração de vezes que o LASSO escolhe cada preditor, entre várias amostras de bootstrap, como a melhor maneira de pensar para ilustrar os caprichos da seleção de variáveis. Isso me afastou do LASSO e na direção da regressão de crista para problemas de escala moderada.
EdM
8

Isso é completamente anedótico, mas achei a importância variável útil para identificar erros ou fraquezas nos GBMs.

A importância variável fornece uma espécie de visão geral transversal do modelo que seria difícil obter de outra maneira. As variáveis ​​mais altas da lista estão vendo mais atividade (se são ou não mais "importantes" é outra questão). Freqüentemente, um preditor de mau comportamento (por exemplo, algo prospectivo ou um fator de alta cardinalidade) dispara para o topo.

Se houver uma grande discordância entre a importância da variável de intuição e a importância da variável GBM, geralmente há algum conhecimento valioso a ser adquirido ou um erro a ser encontrado.

Eu acrescentaria uma terceira resposta ao "por que você está me pedindo isso?" pergunta, que é "porque eu quero entender o que é causal da minha resposta". Eep.

Dex Groves
fonte
4

As classificações de importância variável têm um papel definido no mundo dos negócios aplicados sempre que houver necessidade de priorizar o número potencialmente grande de entradas em um processo, qualquer processo. Essas informações fornecem orientações em termos de uma estratégia focada para atacar um problema, trabalhando do mais para o menos importante, por exemplo, redução de custos do processo, uma vez que as variáveis ​​são aproveitáveis ​​e não são fatores fixos ou estruturais imunes à manipulação. No final do dia, isso deve resultar em algum tipo de teste A / B.

No entanto, a seu ponto de vista, Matt, e como em qualquer classificação ordinal, pequenas nuances ou diferenças entre variáveis ​​podem ser ambíguas ou obscurecidas, prejudicando sua utilidade.

Mike Hunter
fonte
Concordo plenamente com a utilidade da classificação variável em muitos casos de negócios. Mas aqui a preocupação de 'algoritmos diferentes dão classificações diferentes' permanece sem solução. Você tem alguma sugestão para resolver isso? Veja também minha pergunta aqui: stats.stackexchange.com/q/251248/71287 e os comentários abaixo.
Aliweb
3
@aliweb A questão da diferença não tem uma solução única, fixa e unitária. Esse ponto é tão sutil quanto a distinção entre hierarquias e heterarquias, onde as classificações globais são reveladas como sendo, de fato, totalmente locais e transitórias. As melhores revisões da literatura sobre importância relativa relativa provavelmente pertencem a Ulrike Groemping, cujos trabalhos são bastante abrangentes com base nas várias métricas existentes. Além disso, seu módulo e método R - RELAMPO - é uma abordagem tão rigorosa para estimar a importância relativa quanto existe.
Mike Hunter
3

Estou totalmente de acordo com você do ponto de vista teórico. Mas, do ponto de vista prático, a importância variável é muito útil.

Vamos dar um exemplo no qual uma companhia de seguros deseja reduzir o número de perguntas em um questionário quantificando o risco de seus clientes. Quanto mais complicado o questionário, menor a probabilidade de os clientes comprarem seus produtos. Por esse motivo, eles desejam reduzir as questões menos úteis ao manter o nível de quantificação de riscos. A solução geralmente é usar importância variável para determinar quais perguntas serão excluídas do questionário (e ter "mais ou menos" a mesma previsão sobre o perfil de risco do possível cliente).

Metariat
fonte
Concordo plenamente com a utilidade da classificação variável em muitos casos de negócios. Mas aqui a preocupação de 'algoritmos diferentes dão classificações diferentes' permanece sem solução. Você tem alguma sugestão para resolver isso? Veja também minha pergunta aqui: stats.stackexchange.com/q/251248/71287 e os comentários abaixo.
Aliweb
@aliweb: Acho que o Matthew já forneceu uma excelente resposta para sua pergunta.
Metariat 14/12/16