Então, eu li algumas postagens sobre por que o binning sempre deve ser evitado. Uma referência popular para essa afirmação é este link .
A principal fuga é que os pontos de escaneamento (ou pontos de corte) são bastante arbitrários, bem como a perda de informações resultante, e esses splines devem ser preferidos.
No entanto, atualmente estou trabalhando com a API do Spotify, que possui várias medidas contínuas de confiança para vários de seus recursos.
Olhando para uma característica, "instrumentalidade", as referências afirmam:
Prevê se uma faixa não contém vocais. Os sons "Ooh" e "aah" são tratados como instrumentais neste contexto. As faixas de rap ou de palavras faladas são claramente "vocais". Quanto mais próximo o valor da instrumentalidade for de 1,0, maior a probabilidade da faixa não conter conteúdo vocal. Valores acima de 0,5 têm a intenção de representar faixas instrumentais , mas a confiança é maior quando o valor se aproxima de 1,0.
Dada a distribuição muito distorcida dos meus dados (cerca de 90% das amostras estão um pouco acima de 0, achei sensato transformar esse recurso em dois recursos categóricos: "instrumental" (todas as amostras com um valor acima de 0,5) e "não instrumental" "(para todas as amostras com um valor abaixo de 0,5).
Isso está errado? E qual teria sido a alternativa, quando quase todos os meus dados (contínuos) estão girando em torno de um único valor? Pelo que entendi sobre splines, eles também não funcionariam com problemas de classificação (o que estou fazendo).
Respostas:
É um pequeno exagero dizer que o binning deve ser evitado a todo custo , mas certamente é o caso que o binning introduz opções de bin que introduzem alguma arbitrariedade na análise. Com os métodos estatísticos modernos, geralmente não é necessário realizar o binning, pois qualquer coisa que possa ser feita com dados "binned" discretizados geralmente pode ser feita com os valores contínuos subjacentes.
O uso mais comum de "binning" nas estatísticas é na construção de histogramas. Os histogramas são semelhantes à classe geral de estimadores de densidade de kernel (KDEs), na medida em que envolvem agregação de funções de etapas nos compartimentos escolhidos, enquanto o KDE envolve agregação de núcleos mais suaves. A função step usada em um histograma não é uma função suave e geralmente é possível escolher melhores funções do kernel que são menos arbitrárias no método KDE, que também produzem melhores estimativas da densidade subjacente dos dados. Costumo dizer aos alunos que um histograma é apenas o "KDE de um homem pobre". Pessoalmente, eu nunca usaria um, porque é tão fácil obter um KDE sem agrupar os dados, e isso fornece resultados superiores sem uma opção arbitrária de agrupamento.
Outro uso comum de "binning" ocorre quando um analista deseja discretizar dados contínuos em compartimentos para usar técnicas analíticas que usam valores discretos. Parece ser o que está sendo sugerido na seção que você cita sobre a previsão de sons vocais. Nesses casos, há alguma arbitrariedade introduzida pelo binning e também há uma perda de informações. Novamente, é melhor evitar isso, se possível, tentando formar um modelo diretamente nos valores contínuos subjacentes, em vez de formar um modelo nos valores "binados" discretizados.
Como regra geral, é desejável que os estatísticos evitem técnicas analíticas que introduzam suposições arbitrárias, particularmente nos casos em que técnicas alternativas estão disponíveis para evitar facilmente essas suposições. Então, eu concordo com o sentimento de que a divisão é geralmente desnecessária. Certamente não deve ser evitado a todo custo, pois os custos são importantes, mas geralmente deve ser evitado quando existem técnicas alternativas simples que permitem que seja evitado sem nenhum inconveniente sério.
fonte
Eu normalmente argumentaria fortemente contra a categorização de variáveis contínuas pelas razões bem expressas por outros notáveis Frank Harrell. Nesse caso, pode ser útil perguntar-se sobre o processo que gerou as pontuações. Parece que a maioria das pontuações é efetivamente zero, talvez com algum ruído adicionado. Alguns deles estão bastante próximos da unidade novamente com barulho. Muito poucos estão no meio. Nesse caso, parece haver mais justificativa para categorizar, uma vez que se poderia argumentar que modular o ruído é uma variável binária. Se alguém a ajustar como uma variável contínua, os coeficientes teriam significado em termos de mudança na variável preditora, mas nesse caso, na maior parte de seu alcance, a variável é muito escassamente povoada, o que parece pouco atraente.
fonte
Imagine que você tem um relógio que mostra apenas as horas. Apenas quero dizer que ele tem apenas a seta da hora que, uma vez por hora, salta 1/12 para outra hora, não se move suavemente. Esse relógio não seria muito útil, pois você não saberia se são duas e cinco, duas e meia ou dez ou três. Esse é o problema dos dados em bin , ele perde detalhes e introduz as alterações "agitadas".
fonte
Para algumas aplicações, aparentemente incluindo a que você está contemplando, o binning pode ser estritamente necessário. Obviamente, para executar um problema de categorização, em algum momento você deve retirar os dados categóricos do seu modelo e, a menos que suas entradas também sejam categóricas, será necessário executar o binning. Considere um exemplo:
No entanto, o que você ouviu pode muito bem ser verdade, pois o descarte prematuro de valores intermediários renuncia a informações que poderiam ter sido preservadas. Se o objetivo final do seu projeto é determinar se você "gostará" da música em questão, que pode ser determinada por dois fatores: "instrumentalidade" e "rockitude", provavelmente seria melhor mantê-las como variáveis contínuas até que você precisa extrair "gosto" como uma variável categórica.
ou quaisquer coeficientes que considere mais adequados ou qualquer outro modelo adequado ao seu conjunto de treinamento.
Se, em vez disso, você decidir se algo é "instrumental" (verdadeiro ou falso) e "rochas" (verdadeiro ou falso), você terá suas quatro categorias definidas antes de aparecer como dia:
Mas tudo o que você decide é qual dessas 4 categorias você "gosta". Você renunciou à flexibilidade em sua decisão final.
A decisão de depositar ou não no depósito depende inteiramente do seu objetivo. Boa sorte.
fonte
No contexto da pergunta do OP, eu ficaria satisfeito se o limiar arbitrário 0,5 fosse definido para uma variedade de valores entre valores mínimo e máximo credíveis, e ver que os resultados básicos de sua análise são amplamente independentes da seleção.
fonte