Eu tenho esse projeto paralelo onde rastreio os sites de notícias locais do meu país e quero criar um índice de criminalidade e um índice de instabilidade política. Já abordei a parte de recuperação de informações do projeto. Meu plano é fazer:
- Extração de tópicos não supervisionados.
- Detecção de duplicatas próximas.
- Classificação supervisionada e nível de incidente (crime / político - alto / médio / baixo).
Usarei python e sklearn e já pesquisei os algoritmos que posso usar para essas tarefas. Eu acho que 2. poderia me dar um fator de relevância para uma história: quanto mais jornais publicam sobre uma história ou tópico, mais relevante para aquele dia.
Meu próximo passo é criar o índice mensal, semanal e diário (em todo o país e por cidades) com base nos recursos que tenho, e estou um pouco perdido aqui, pois a "sensibilidade à instabilidade" pode aumentar com o tempo. Quero dizer, o índice do maior incidente de instabilidade do ano passado pode ser menor que o índice deste ano. Também se usar escala fixa de 0 a 100 ou não.
Mais tarde, eu gostaria de poder prever incidentes com base nisso, por exemplo, se a sucessão de eventos nas últimas semanas está levando a um grande incidente. Mas, por enquanto, ficarei feliz em obter a classificação funcionando e construindo o modelo de índice.
Eu apreciaria qualquer indicação para um artigo, leituras ou pensamentos relevantes. Obrigado.
PD: Desculpe se a pergunta não pertence aqui.
ATUALIZAÇÃO : Ainda não "consegui", mas recentemente houve uma notícia sobre um grupo de cientistas que estão trabalhando em um sistema para prever os eventos usando arquivos de notícias e lançaram um artigo relevante Minerando a Web para prever eventos futuros (PDF )
fonte
Respostas:
Considere variações na pontuação GINI.
É normalizado e sua saída varia de 0 a 1.
EDITAR:
Por que o GINI é "legal" ou pelo menos potencialmente apropriado:
É uma medida de desigualdade ou desigualdade. É usado como uma medida sem escala para caracterizar a heterogeneidade de redes sem escala, incluindo redes infinitas e aleatórias. É útil na construção de árvores CART, porque é a medida do poder de divisão de uma determinada divisão de dados.
Devido à sua gama:
Porque é normalizado:
Referências:
fonte