Por que o binning deve ser evitado a todo custo?

10

Então, eu li algumas postagens sobre por que o binning sempre deve ser evitado. Uma referência popular para essa afirmação é este link .

A principal fuga é que os pontos de escaneamento (ou pontos de corte) são bastante arbitrários, bem como a perda de informações resultante, e esses splines devem ser preferidos.

No entanto, atualmente estou trabalhando com a API do Spotify, que possui várias medidas contínuas de confiança para vários de seus recursos.

Olhando para uma característica, "instrumentalidade", as referências afirmam:

Prevê se uma faixa não contém vocais. Os sons "Ooh" e "aah" são tratados como instrumentais neste contexto. As faixas de rap ou de palavras faladas são claramente "vocais". Quanto mais próximo o valor da instrumentalidade for de 1,0, maior a probabilidade da faixa não conter conteúdo vocal. Valores acima de 0,5 têm a intenção de representar faixas instrumentais , mas a confiança é maior quando o valor se aproxima de 1,0.

Dada a distribuição muito distorcida dos meus dados (cerca de 90% das amostras estão um pouco acima de 0, achei sensato transformar esse recurso em dois recursos categóricos: "instrumental" (todas as amostras com um valor acima de 0,5) e "não instrumental" "(para todas as amostras com um valor abaixo de 0,5).

Isso está errado? E qual teria sido a alternativa, quando quase todos os meus dados (contínuos) estão girando em torno de um único valor? Pelo que entendi sobre splines, eles também não funcionariam com problemas de classificação (o que estou fazendo).

Readler
fonte
10
A configuração que você descreve não parece sugerir que a distribuição é uma boa ideia. Você mesmo disse que há informações sobre o valor de 1,0 . IMHO você faria bem em ter um recurso contínuo relacionado à probabilidade de ser instrumental. Talvez você possa expandir sua pergunta.
31575 Frank Fellowski
Minha pergunta é basicamente quando está tudo bem em usar binning, se houver. No meu caso, usei-o com base no domínio (instrumental / não instrumental), pois acredito que seja mais predicativo do que dizer o quão perto uma faixa está de ser instrumental (já que uma faixa é ou não é instrumental). Você argumentou contra essa lógica, no entanto, no ponto 8 da sua postagem. Eu, como iniciante, não consigo entender muito bem por que isso deveria acontecer.
Readler
11
Eu escrevi um longo post sobre isso no contexto da modelagem preditiva: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Muito informativo e completo, obrigado. No entanto, não vejo a relação com a minha pergunta (embora ainda tenha conseguido novas idéias, tudo está bem!). Seu artigo está falando sobre a classificação da variável preditora em problemas de regressão e por que essa é uma má ideia (contra a qual seu artigo argumentou de forma convincente) e por que o uso de splines ajuda a modelar a regressão. Eu estava perguntando por que é ruim discretizar os valores de um recurso contínuo (uma entrada) em um problema de classificação (cujas variáveis ​​preditoras são inerentemente "caixas", ou seja, classes).
Readler
2
Se quase todo o seu recurso estiver em um ponto, provavelmente será inútil para o seu modelo, independentemente do que você faça.
Acumulação 04/02/19

Respostas:

15

É um pequeno exagero dizer que o binning deve ser evitado a todo custo , mas certamente é o caso que o binning introduz opções de bin que introduzem alguma arbitrariedade na análise. Com os métodos estatísticos modernos, geralmente não é necessário realizar o binning, pois qualquer coisa que possa ser feita com dados "binned" discretizados geralmente pode ser feita com os valores contínuos subjacentes.

O uso mais comum de "binning" nas estatísticas é na construção de histogramas. Os histogramas são semelhantes à classe geral de estimadores de densidade de kernel (KDEs), na medida em que envolvem agregação de funções de etapas nos compartimentos escolhidos, enquanto o KDE envolve agregação de núcleos mais suaves. A função step usada em um histograma não é uma função suave e geralmente é possível escolher melhores funções do kernel que são menos arbitrárias no método KDE, que também produzem melhores estimativas da densidade subjacente dos dados. Costumo dizer aos alunos que um histograma é apenas o "KDE de um homem pobre". Pessoalmente, eu nunca usaria um, porque é tão fácil obter um KDE sem agrupar os dados, e isso fornece resultados superiores sem uma opção arbitrária de agrupamento.

Outro uso comum de "binning" ocorre quando um analista deseja discretizar dados contínuos em compartimentos para usar técnicas analíticas que usam valores discretos. Parece ser o que está sendo sugerido na seção que você cita sobre a previsão de sons vocais. Nesses casos, há alguma arbitrariedade introduzida pelo binning e também há uma perda de informações. Novamente, é melhor evitar isso, se possível, tentando formar um modelo diretamente nos valores contínuos subjacentes, em vez de formar um modelo nos valores "binados" discretizados.

Como regra geral, é desejável que os estatísticos evitem técnicas analíticas que introduzam suposições arbitrárias, particularmente nos casos em que técnicas alternativas estão disponíveis para evitar facilmente essas suposições. Então, eu concordo com o sentimento de que a divisão é geralmente desnecessária. Certamente não deve ser evitado a todo custo, pois os custos são importantes, mas geralmente deve ser evitado quando existem técnicas alternativas simples que permitem que seja evitado sem nenhum inconveniente sério.

Ben - Restabelecer Monica
fonte
Eu vejo. Pergunta de acompanhamento: porém, observando a distribuição do exemplo mencionado acima, veja aqui (ironicamente, um histograma), não consigo ver as utilidades em uma variável contínua em que quase todas as amostras giram em torno de um valor (sendo 0), que é Foi o que inicialmente me levou a excluir esse recurso. Você mencionou a alternativa - você poderia elaborar ou apontar a direção certa para onde eu poderia aprender mais?
Readler 04/02/19
Tente ler sobre o KDEs e também considere algumas maneiras alternativas de plotar dados univariados .
Ben - Restabelece Monica
No histograma, vejo valores em todo o lugar (mas, sim, quase sempre perto de zero). Não deve haver inconveniente no uso de um ajuste de spline e isso certamente fornecerá mais informações. Plote o spline ajustado! e, se por algum motivo você precisar discernir , essa trama poderá ajudá-lo. Pode ser que, para seu uso específico, outro ponto de corte que 0,5 seja melhor.
Kjetil b halvorsen
2
Um histograma não pode ser corretamente interpretado como um KDE. Qual seria o kernel?
whuber
11
Com relação ao seu terceiro parágrafo, eu tive uma pergunta semelhante quando estava tentando calcular o ganho de informações com alguns dados numéricos. Você pode olhar para esta pergunta e explicar o que fazer nessa situação? stats.stackexchange.com/questions/384684/…
astel
4

Eu normalmente argumentaria fortemente contra a categorização de variáveis ​​contínuas pelas razões bem expressas por outros notáveis ​​Frank Harrell. Nesse caso, pode ser útil perguntar-se sobre o processo que gerou as pontuações. Parece que a maioria das pontuações é efetivamente zero, talvez com algum ruído adicionado. Alguns deles estão bastante próximos da unidade novamente com barulho. Muito poucos estão no meio. Nesse caso, parece haver mais justificativa para categorizar, uma vez que se poderia argumentar que modular o ruído é uma variável binária. Se alguém a ajustar como uma variável contínua, os coeficientes teriam significado em termos de mudança na variável preditora, mas nesse caso, na maior parte de seu alcance, a variável é muito escassamente povoada, o que parece pouco atraente.

mdewey
fonte
4
Minha resposta curta para quando usar o binning é a seguinte: quando os pontos de descontinuidade já são conhecidos antes de examinar os dados (esses são os pontos finais do compartimento) e se é sabido que a relação entre x e y em cada compartimento que possui comprimento diferente de zero é plano.
24519 Frank Frank Harrell
2

Imagine que você tem um relógio que mostra apenas as horas. Apenas quero dizer que ele tem apenas a seta da hora que, uma vez por hora, salta 1/12 para outra hora, não se move suavemente. Esse relógio não seria muito útil, pois você não saberia se são duas e cinco, duas e meia ou dez ou três. Esse é o problema dos dados em bin , ele perde detalhes e introduz as alterações "agitadas".

Tim
fonte
11
(+1) Sim, e adicione a isso o problema adicional de que o relojoeiro pode não escolher incrementos de hora em hora, mas pode decidir arbitrariamente que o relógio dele será em incrementos de 19 minutos e você terá um problema adicional além da perda de informações .
Ben - Restabelece Monica
2

Para algumas aplicações, aparentemente incluindo a que você está contemplando, o binning pode ser estritamente necessário. Obviamente, para executar um problema de categorização, em algum momento você deve retirar os dados categóricos do seu modelo e, a menos que suas entradas também sejam categóricas, será necessário executar o binning. Considere um exemplo:

Uma IA sofisticada está jogando poker. Ele avaliou a probabilidade de sua mão ser superior às mãos de outros jogadores em 70%. É a sua vez de apostar, no entanto, foi dito que ele deve evitar o depósito a todo custo e, consequentemente, nunca faz uma aposta; ele se dobra por padrão.

No entanto, o que você ouviu pode muito bem ser verdade, pois o descarte prematuro de valores intermediários renuncia a informações que poderiam ter sido preservadas. Se o objetivo final do seu projeto é determinar se você "gostará" da música em questão, que pode ser determinada por dois fatores: "instrumentalidade" e "rockitude", provavelmente seria melhor mantê-las como variáveis ​​contínuas até que você precisa extrair "gosto" como uma variável categórica.

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

ou quaisquer coeficientes que considere mais adequados ou qualquer outro modelo adequado ao seu conjunto de treinamento.

Se, em vez disso, você decidir se algo é "instrumental" (verdadeiro ou falso) e "rochas" (verdadeiro ou falso), você terá suas quatro categorias definidas antes de aparecer como dia:

  1. instrumental, rochas
  2. não instrumental, rochas
  3. instrumental, sem pedras
  4. não instrumental, sem pedras

Mas tudo o que você decide é qual dessas 4 categorias você "gosta". Você renunciou à flexibilidade em sua decisão final.

A decisão de depositar ou não no depósito depende inteiramente do seu objetivo. Boa sorte.

guenthmonstr
fonte
2

R

R{b1bN}bi=[li,ui]liuii

l=l0wl0u0=l0+ww(wmin,wmax)

P(R)=w=wminwmaxl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0l0)wmax+wmin×(wmaxwmin)

wmax,wmin,l0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

No contexto da pergunta do OP, eu ficaria satisfeito se o limiar arbitrário 0,5 fosse definido para uma variedade de valores entre valores mínimo e máximo credíveis, e ver que os resultados básicos de sua análise são amplamente independentes da seleção.

Peter Leopold
fonte