Eu tenho um curso de Aprendizado de Máquina neste semestre e o professor nos pediu para encontrar um problema do mundo real e resolvê-lo por um dos métodos de aprendizado de máquina introduzidos na classe, como:
- Árvores de decisão
- Redes neurais artificiais
- Máquinas de vetores de suporte
- Aprendizagem baseada em instâncias ( kNN , LWL )
- Redes Bayesianas
- Aprendizagem por reforço
Sou um dos fãs de stackoverflow e stackexchange e sei que os dumps de bancos de dados desses sites são fornecidos ao público porque são incríveis! Espero encontrar um bom desafio de aprendizado de máquina sobre esses bancos de dados e resolvê-lo.
Minha ideia
Uma ideia surgiu: prever tags para perguntas com base nas palavras inseridas no corpo da pergunta. Eu acho que a rede bayesiana é a ferramenta certa para aprender tags para uma pergunta, mas precisa de mais pesquisas. De qualquer forma, após a fase de aprendizado, quando o usuário terminar de inserir a pergunta, algumas tags deverão ser sugeridas a ele.
Por favor me diga :
Quero perguntar à comunidade de estatísticas como pessoas experientes sobre o ML duas perguntas:
Você acha que a sugestão de tags é pelo menos um problema com alguma chance de solução? Você tem algum conselho sobre isso? Estou um pouco preocupado porque o stackexchange ainda não implementa esse recurso.
Você tem alguma outra / melhor ideia para o projeto ML que se baseia no banco de dados stackexchange? Acho realmente difícil encontrar algo para aprender com os bancos de dados stackexchange.
Consideração sobre erros de banco de dados: gostaria de salientar que, embora os bancos de dados sejam enormes e tenham muitas instâncias, eles não são perfeitos e estão sujeitos a erros. O óbvio é a idade dos usuários que não é confiável. Mesmo as tags selecionadas para a pergunta não estão 100% corretas. De qualquer forma, devemos considerar a porcentagem de correção de dados na seleção de um problema.
Consideração sobre o problema em si: Meu projeto não deve ser sobre data-mining
ou algo assim. Deve ser apenas uma aplicação dos métodos de ML no mundo real.
fonte
Também estava pensando na previsão de tags, gosto da ideia. Tenho a sensação de que isso é possível, mas talvez você precise superar muitos problemas antes de chegar ao seu conjunto de dados final. Especulo que a previsão de tags pode levar muito tempo. Além das tags incorretas, o limite máximo de 5 tags pode desempenhar um papel. Além disso, algumas tags são subcategorias de outras (por exemplo, “comparações múltiplas” podem ser vistas como uma subcategoria de “teste de significância”).
Não verifiquei se os tempos de votação estão incluídos no banco de dados para download, mas um projeto mais simples e ainda interessante poderia prever o número "final" de votos (talvez depois de cinco meses) em uma pergunta, dependendo dos votos iniciais, e o momento de aceitar uma resposta.
fonte
Essa é uma boa pergunta. Eu também pensei que os conjuntos de dados StackExchange publicamente disponíveis seriam bons assuntos para análise. Estes são suficientemente incomuns para que também possam ser bons testes para novos métodos estatísticos. Ter uma quantidade tão grande de dados bem estruturados é incomum, pelo menos.
O cardeal sugeriu várias coisas que seriam realmente úteis para o StackExchange. Não vou me restringir a isso.
Aqui está um candidato óbvio para análise, apesar de não ter nenhum uso óbvio que me vem à mente. É um efeito notável que os usuários com alta reputação têm maior probabilidade de obter votos positivos, outras coisas sendo iguais. No entanto, esse efeito provavelmente não é trivial para modelar. Como não podemos comparar a utilidade entre os usuários com muita facilidade, uma abordagem óbvia seria assumir que as respostas dos usuários sempre foram igualmente úteis (não é verdade em geral, mas é preciso começar em algum lugar) e adicionar um termo inflacionário para explicar sua reputação crescente . Alguém poderia então (suponho) acrescentar em alguns termos que explicariam que as respostas dele melhoravam com o aumento da experiência. Talvez isso possa ser tratado por algum tipo de série temporal. Não tenho certeza de como o intervalo de dados afetaria isso. Pode ser um exercício interessante.
Vou adicionar mais exemplos se / quando pensar neles.
Alguém está ciente dos trabalhos de pesquisa estatística com base nos dados da SE? Além disso, Isaac mencionou que os dados têm erros. Alguém sabe mais alguma coisa sobre isso?
fonte