Quando devemos discretizar / bin variáveis / recursos independentes e quando não devemos?
Minhas tentativas de responder à pergunta:
- Em geral, não devemos fazer bin, porque o binning perderá informações.
- Na verdade, o binning está aumentando o grau de liberdade do modelo; portanto, é possível causar um ajuste excessivo após o binning. Se tivermos um modelo de "alto viés", o binning pode não ser ruim, mas se tivermos um modelo de "alta variância", devemos evitar o binning.
- Depende do modelo que estamos usando. Se for um modo linear, e os dados tiverem muitas probabilidades de binning "outliers", é melhor. Se tivermos um modelo de árvore, então, outlier e binning farão muita diferença.
Estou certo? e o que mais?
Eu pensei que essa pergunta deveria ser feita muitas vezes, mas não consigo encontrá-la no CV apenas nessas postagens
Devemos bin variáveis contínuas?
Qual é o benefício de dividir uma variável preditora contínua?
Respostas:
Parece que você também está procurando uma resposta do ponto de vista preditivo, então montei uma breve demonstração de duas abordagens em R
Abaixo, eu forneci o código para uma função que comparará os dois métodos automaticamente para qualquer função de sinal verdadeiro
Essa função criará conjuntos de dados de treinamento e teste ruidosos a partir de um determinado sinal e ajustará uma série de regressões lineares aos dados de treinamento de dois tipos
cuts
modelo inclui preditores binados, formados pela segmentação do intervalo de dados em intervalos semiabertos de tamanho igual e, em seguida, criando preditores binários indicando a qual intervalo cada ponto de treinamento pertence.splines
modelo inclui uma expansão da base da spline cúbica natural, com nós igualmente espaçados em toda a faixa do preditor.Os argumentos são
signal
: Uma função de uma variável representando a verdade a ser estimada.N
: O número de amostras a serem incluídas nos dados de treinamento e teste.noise
: O amplo ruído gaussiano aleatório a ser adicionado ao sinal de treinamento e teste.range
: O intervalo dosx
dados de treinamento e teste , dados gerados uniformemente dentro desse intervalo.max_paramters
: O número máximo de parâmetros a serem estimados em um modelo. Esse é o número máximo de segmentos nocuts
modelo e o número máximo de nós nosplines
modelo.Observe que o número de parâmetros estimados no
splines
modelo é igual ao número de nós, portanto, os dois modelos são comparados de maneira justa.O objeto de retorno da função possui alguns componentes
signal_plot
: Um gráfico da função de sinal.data_plot
: Um gráfico de dispersão dos dados de treinamento e teste.errors_comparison_plot
: Um gráfico que mostra a evolução da soma da taxa de erro ao quadrado de ambos os modelos em uma faixa do número de parâmetros estimados.Vou demonstrar com duas funções de sinal. A primeira é uma onda sinusal com uma tendência linear crescente sobreposta
Aqui está como as taxas de erro evoluem
O segundo exemplo é uma função maluca que eu mantenho por aí apenas para esse tipo de coisa, plote e veja
E por diversão, aqui está uma função linear chata
Você pode ver isso:
Portanto, splines sempre devem ser preferidos do ponto de vista preditivo.
Código
Aqui está o código que eu usei para produzir essas comparações. Coloquei tudo em uma função para que você possa testá-lo com suas próprias funções de sinal. Você precisará importar as bibliotecas
ggplot2
esplines
R.fonte
A agregação é substancialmente significativa (independentemente de o pesquisador estar ciente disso).
É necessário agrupar dados, incluindo variáveis independentes, com base nos dados quando se deseja:
Hemorragiar o poder estatístico.
Desviar medidas de associação.
Uma literatura que comece, creio eu, com Ghelke e Biehl (1934 - definitivamente vale a pena ser lida, e sugestiva de algumas simulações de computador fáceis o suficiente para que você possa executar por si mesmo), e continuando especialmente na literatura sobre o "problema da unidade de área modificável" (Openshaw , 1983; Dudley, 1991; Lee e Kemp, 2000) tornam esses dois pontos claros.
A menos que se tenha uma teoria a priori da escala de agregação (quantas unidades agregar) e da função de categorização da agregação (quais observações individuais terminarão em quais unidades agregadas), não se deve agregar. Por exemplo, em epidemiologia, nos preocupamos com a saúde dos indivíduos e com a saúde das populações . As últimas não são simplesmente coleções aleatórias da primeira, mas definidas por, por exemplo, fronteiras geopolíticas, circunstâncias sociais como categorização étnica de raça, status carceral e categorias da história, etc. (Veja, por exemplo, Krieger, 2012)
Referências
Dudley, G. (1991). Escala, agregação e o problema da unidade de área modificável . [pago] The Operational Geographer, 9 (3): 28–33.
Gehlke, CE e Biehl, K. (1934). Certos efeitos do agrupamento sobre o tamanho do coeficiente de correlação no material do setor censitário . [pay-walled] Journal of the American Statistical Association , 29 (185): 169-170.
Krieger, N. (2012). Quem e o que é uma "população"? debates históricos, controvérsias atuais e implicações para a compreensão da “saúde da população” e para a correção das iniquidades em saúde . The Milbank Quarterly , 90 (4): 634–681.
Lee, HTK e Kemp, Z. (2000). Raciocínio hierárquico e processamento analítico on-line de dados espaciais e temporais . Em Anais do 9º Simpósio Internacional sobre Tratamento de Dados Espaciais , Beijing, PR China. União Geográfica Internacional.
Openshaw, S. (1983). O problema da unidade de área modificável. Conceitos e Técnicas em Geografia Moderna . Geo Books, Norwich, Reino Unido.
fonte