Por que vários tipos de modelos dão resultados quase idênticos?

10

Estive analisando um conjunto de dados de ~ 400k registros e 9 variáveis. A variável dependente é binária. Eu ajustei uma regressão logística, uma árvore de regressão, uma floresta aleatória e uma árvore aumentada por gradiente. Todos eles fornecem números idênticos virtuais de ajuste quando os valido em outro conjunto de dados.

Porque isto é assim? Acho que é porque minhas observações em relação à variável são muito altas. Se isso estiver correto, em que observação / razão variável os diferentes modelos começarão a fornecer resultados diferentes?

JenSCDC
fonte

Respostas:

7

Esses resultados significam que, independentemente do método usado, você poderá se aproximar razoavelmente da regra de decisão ideal (também conhecida como regra de Bayes ). As razões subjacentes foram explicadas nos "Elementos da aprendizagem estatística" de Hastie, Tibshirani e Friedman . Eles demonstraram o desempenho dos diferentes métodos comparando as Figs. 2.1, 2.2, 2.3, 5.11 (na minha primeira edição - na seção sobre splines multidimensionais), 12.2, 12.3 (máquinas de vetores de suporte) e provavelmente algumas outras. Se você ainda não leu esse livro, precisará soltar tudo AGORA e ler. (Quero dizer, não vale a pena perder o emprego, mas vale a pena perder um ou dois trabalhos de casa, se você é um estudante.)

Não acho que a observação da razão variável seja a explicação. À luz da minha lógica apresentada acima, é a forma relativamente simples da fronteira que separa suas classes no espaço multidimensional que todos os métodos que você tentou foram capazes de identificar.

StasK
fonte
Vou perguntar ao meu chefe se posso conseguir que a empresa pague por isso.
JenSCDC
11
A ESL é 'grátis' como um PDF em sua página inicial ... também vale a pena fazer o download é ISL (por muitos dos mesmos autores) - mais prático www-bcf.usc.edu/~gareth/ISL
seanv507
4

vale a pena também olhar para os erros de treinamento.

basicamente, eu discordo de sua análise. se a regressão logística etc estiver dando os mesmos resultados, sugeriria que o 'melhor modelo' é muito simples (que todos os modelos podem se encaixar igualmente bem - por exemplo, basicamente linear).

Portanto, a pergunta pode ser: por que o melhor modelo é um modelo simples ?: Isso pode sugerir que suas variáveis ​​não são muito preditivas. É claro que é difícil analisar sem conhecer os dados.

seanv507
fonte
1

Como @ seanv507 sugeriu, o desempenho semelhante pode ser simplesmente devido à melhor separação dos dados por um modelo linear. Mas, em geral, a afirmação de que é porque a "proporção de observações em relação à variável é muito alta" está incorreta. Mesmo que sua proporção entre o tamanho da amostra e o número de variáveis ​​chegue ao infinito, você não deve esperar que modelos diferentes tenham desempenho quase idêntico, a menos que todos forneçam o mesmo viés preditivo.

Bogatron
fonte
Acabei de editar minha pergunta para adicionar que a variável dependente é binária. Portanto, um modelo linear não é adequado.
JenSCDC
"você não deve esperar que modelos diferentes tenham desempenho quase idêntico, a menos que todos forneçam o mesmo viés preditivo". Usei o MAE e a proporção de resultados reais para os previstos como medidas de validação e as proporções eram muito próximas.
JenSCDC
11
Andy, eu incluiria regressão logística (e SVM linear) como modelo "linear". Todos estão apenas separando os dados por uma soma ponderada das entradas.
precisa saber é o seguinte
11
@ seanv507 Exatamente - o limite de decisão ainda é linear. O fato de a classificação binária estar sendo realizada não muda isso.
bogatron
E as árvores? Eles realmente não parecem lineares para mim.
JenSCDC
0

Acho que é porque minhas observações em relação à variável são muito altas.

Eu acho que essa explicação faz todo sentido.

Se isso estiver correto, em que observação / razão variável os diferentes modelos começarão a fornecer resultados diferentes?

Provavelmente, isso dependerá muito dos seus dados específicos (por exemplo, mesmo que suas nove variáveis ​​sejam contínuas, fatores, comuns ou binárias), bem como de quaisquer decisões de ajuste que você tomou ao ajustar seu modelo.

Mas você pode brincar com a relação observação-variável - não aumentando o número de variáveis, mas diminuindo o número de observações. Desenhe aleatoriamente 100 observações, ajuste modelos e veja se modelos diferentes produzem resultados diferentes. (Acho que sim.) Faça isso várias vezes com diferentes amostras retiradas do seu número total de observações. Então olhe para subamostras de 1.000 observações ... 10.000 observações ... e assim por diante.

Stephan Kolassa
fonte
11
Hum, por que isso? mais observações parecem aumentar a chance de que o limite de decisão seja mais complexo - ou seja, definitivamente não é linear. E esses modelos fazem coisas diferentes em casos complexos e tendem a fazer o mesmo em casos simples.
Sean Owen
@SeanOwen: Acho que não estou entendendo o seu comentário. A que parte da minha resposta se refere "por que isso"? O OP não disse nada sobre o uso de limites de decisão lineares - afinal, ele poderia transformar os preditores de alguma forma.
Stephan Kolassa
Por que mais observações levariam classificadores diferentes a tomar decisões mais semelhantes? minha intuição é o oposto. Sim, não estou pensando apenas em limites de decisão lineares. Quanto mais complexo o limite ideal, menor a probabilidade de que todos eles se ajustem a algo semelhante a esse limite. E o limite tende a ser mais complexo com mais observações.
Sean Owen