Estou procurando ferramentas que ajudem a mim e à minha equipe a anotar conjuntos de treinamento. Eu trabalho em um ambiente com grandes conjuntos de dados, alguns dos quais são un ou semi-estruturados. Em muitos casos, existem registros que ajudam a encontrar uma verdade fundamentada. Em muitos casos, porém, é necessário um conjunto com curadoria, mesmo que fosse apenas para avaliação. Um fator complicador é que alguns dos dados não podem sair da premissa.
Queremos anotar uma tarefa de detecção de objetos, mas prevejo uma tarefa de segmentação de imagens, uma tarefa de classificação de texto e uma tarefa de detecção de sentimentos em um futuro próximo.
O que estou procurando é um sistema que possa ajudar um grupo a fazer uma anotação, de preferência de uma maneira que motive os anotadores, mostrando o progresso do grupo, o progresso individual relativo e, talvez, o acordo pessoal do anotador.
fonte
Respostas:
Você pode experimentar o Prodigy por explosion.ai, criadores do spacy ou pirralho, uma alternativa de código aberto a ele. Você também pode consultar este post em qoura.
fonte
O Doccano é uma alternativa mais simples de código aberto ao Prodigy. Seu python nativo via Django. Eu achei adequado para implementações simples.
fonte
O Diffgram pode ser usado para criar e gerenciar dados de treinamento.
fonte
Tenho vindo a trabalhar com o SPACY extenstion na criação da Technische Universität Darmstadt. Parece muito bom até agora.
fonte
Acabei de criar uma biblioteca python ( GitHub - Postagem no blog ) para criar rapidamente dados de treinamento para modelos spaCy NER usando ipywidgets.
fonte