Eu tenho um conjunto de dados como este:
postID Sentence drugYesOrNo
1 He went out with his friends
2 He behaved nicely while talking with me
3 He stopped using drugs after a while 1
4 He did not meet any friend during last week
1 He slowly cut usage of drugs 1
2 He smiled like he is good
3 He did not seem happy with his situation
Como você vê, existem dois recursos. a primeira característica é a nossa sentença e a segunda característica mostra que essa sentença é um sinal de que o paciente parou ou não o medicamento.
a primeira coluna mostra a frase que faz parte de um parágrafo. por exemplo, AQUI a sentença 1-4 é um parágrafo no qual os dividimos para ver qual sentença mostra exatamente a interrupção das drogas . então a sentença 3 do primeiro parágrafo mostra isso.
No segundo caso, a frase 1-3 faz parte de um parágrafo. aqui a frase um mostra que essa pessoa parou de usar drogas (o que não é bom, a pessoa deve continuar)
portanto, meu objetivo é aplicar um classificador de texto de aprendizado profundo nos meus dados de texto e criar um modelo. Assim, quando recebi UM NOVO PARÁGRAFO, poderei prever se a pessoa interrompeu seus medicamentos ou não.
primeira pergunta, com este estudo de caso, qual classificador de texto de aprendizado profundo pode funcionar melhor?
Em segundo lugar, como você vê, cortamos o parágrafo em uma série de frases. mas, na realidade, daremos um parágrafo para testar o modelo. na sua ideia, qual será a melhor abordagem para lidar com isso?
o que me veio à mente é que, ao testar e receber um parágrafo, dividimos novamente o parágrafo em sentenças e damos essas sentenças ao modelo, mas não tenho certeza de que seja uma boa abordagem.
temos 900 dessas frases, mais uma vez, não tenho certeza com a quantidade de dados necessária para aplicar o classificador de aprendizado profundo.
Agradeço se você me der seu ponto de vista :)
Atualizar depois de ler comentários
Pedi a alguns caras que fizessem esse conjunto de dados para mim. Quero dizer, olhar para o parágrafo, dividir e depois dizer qual sentença tem esse significado (parar ou não de drogas). e se eu não pedisse para que dissessem explicitamente qual sentença tem esse significado e apenas aponte qual parágrafo tem esse significado (interromper as drogas ou não). você acha que rotular exatamente qual sentença tem esse significado tem sido uma boa ideia, e não qual parágrafo tem esse significado? Espero ser claro o suficiente :)