Estive analisando um conjunto de dados de ~ 400k registros e 9 variáveis. A variável dependente é binária. Eu ajustei uma regressão logística, uma árvore de regressão, uma floresta aleatória e uma árvore aumentada por gradiente. Todos eles fornecem números idênticos virtuais de ajuste quando os valido em outro conjunto de dados.
Porque isto é assim? Acho que é porque minhas observações em relação à variável são muito altas. Se isso estiver correto, em que observação / razão variável os diferentes modelos começarão a fornecer resultados diferentes?
fonte
vale a pena também olhar para os erros de treinamento.
basicamente, eu discordo de sua análise. se a regressão logística etc estiver dando os mesmos resultados, sugeriria que o 'melhor modelo' é muito simples (que todos os modelos podem se encaixar igualmente bem - por exemplo, basicamente linear).
Portanto, a pergunta pode ser: por que o melhor modelo é um modelo simples ?: Isso pode sugerir que suas variáveis não são muito preditivas. É claro que é difícil analisar sem conhecer os dados.
fonte
Como @ seanv507 sugeriu, o desempenho semelhante pode ser simplesmente devido à melhor separação dos dados por um modelo linear. Mas, em geral, a afirmação de que é porque a "proporção de observações em relação à variável é muito alta" está incorreta. Mesmo que sua proporção entre o tamanho da amostra e o número de variáveis chegue ao infinito, você não deve esperar que modelos diferentes tenham desempenho quase idêntico, a menos que todos forneçam o mesmo viés preditivo.
fonte
Eu acho que essa explicação faz todo sentido.
Provavelmente, isso dependerá muito dos seus dados específicos (por exemplo, mesmo que suas nove variáveis sejam contínuas, fatores, comuns ou binárias), bem como de quaisquer decisões de ajuste que você tomou ao ajustar seu modelo.
Mas você pode brincar com a relação observação-variável - não aumentando o número de variáveis, mas diminuindo o número de observações. Desenhe aleatoriamente 100 observações, ajuste modelos e veja se modelos diferentes produzem resultados diferentes. (Acho que sim.) Faça isso várias vezes com diferentes amostras retiradas do seu número total de observações. Então olhe para subamostras de 1.000 observações ... 10.000 observações ... e assim por diante.
fonte