qual classificador de texto de aprendizado profundo é bom para dados de saúde

7

Eu tenho um conjunto de dados como este:

postID  Sentence                                         drugYesOrNo
1       He went out with his friends    
2       He behaved nicely while talking with me 
3       He stopped using drugs after a while                 1
4       He did not meet any friend during last week 
1       He slowly cut usage of drugs                         1
2       He smiled like he is good   
3       He did not seem happy with his situation    

Como você vê, existem dois recursos. a primeira característica é a nossa sentença e a segunda característica mostra que essa sentença é um sinal de que o paciente parou ou não o medicamento.

a primeira coluna mostra a frase que faz parte de um parágrafo. por exemplo, AQUI a sentença 1-4 é um parágrafo no qual os dividimos para ver qual sentença mostra exatamente a interrupção das drogas . então a sentença 3 do primeiro parágrafo mostra isso.

No segundo caso, a frase 1-3 faz parte de um parágrafo. aqui a frase um mostra que essa pessoa parou de usar drogas (o que não é bom, a pessoa deve continuar)

portanto, meu objetivo é aplicar um classificador de texto de aprendizado profundo nos meus dados de texto e criar um modelo. Assim, quando recebi UM NOVO PARÁGRAFO, poderei prever se a pessoa interrompeu seus medicamentos ou não.

primeira pergunta, com este estudo de caso, qual classificador de texto de aprendizado profundo pode funcionar melhor?

Em segundo lugar, como você vê, cortamos o parágrafo em uma série de frases. mas, na realidade, daremos um parágrafo para testar o modelo. na sua ideia, qual será a melhor abordagem para lidar com isso?

o que me veio à mente é que, ao testar e receber um parágrafo, dividimos novamente o parágrafo em sentenças e damos essas sentenças ao modelo, mas não tenho certeza de que seja uma boa abordagem.

temos 900 dessas frases, mais uma vez, não tenho certeza com a quantidade de dados necessária para aplicar o classificador de aprendizado profundo.

Agradeço se você me der seu ponto de vista :)

Atualizar depois de ler comentários

Pedi a alguns caras que fizessem esse conjunto de dados para mim. Quero dizer, olhar para o parágrafo, dividir e depois dizer qual sentença tem esse significado (parar ou não de drogas). e se eu não pedisse para que dissessem explicitamente qual sentença tem esse significado e apenas aponte qual parágrafo tem esse significado (interromper as drogas ou não). você acha que rotular exatamente qual sentença tem esse significado tem sido uma boa ideia, e não qual parágrafo tem esse significado? Espero ser claro o suficiente :)

sariii
fonte

Respostas:

5

Sim, você deve dividir o parágrafo em frases e atribuir essas frases ao modelo. Sua estrutura profunda deve ser assim:

Na primeira camada, você deve colocar uma camada de incorporação de palavras para representar uma frase como uma sequência de vetores. Na segunda camada, você deve colocar o LSTM para poder modelar seu vetor de sequência como um único vetor. Agora, você pode adicionar camadas sucessivas com funções de ativação linear, relu ou sigmóide para tornar seu modelo mais profundo. Na última camada, você deve usar a função de ativação sigmóide para fazer a classificação binária.

pensador
fonte
Obrigado pela sua resposta. você acha que 1000 parágrafos ou quase 5000 sentenças é suficiente para o LSTM dar um bom resultado?
Sariii
De nada. Sim, parece suficiente.
Pythinker 31/05/19
Por que você não sugeriu não considerar os parágrafos como séries de frases, mas como um parágrafo. portanto, neste caso, temos um parágrafo e passamos o parágrafo inteiro para o modelo. então, se houver alguma sentença no parágrafo que mostre que o paciente parou de usar drogas, é 1, caso contrário, é 0. Quero dizer, você acha que se divide assim, na qual mostra qual sentença tem essa informação que pode ajudar o modelo a prever com precisão? desculpe, eu só quero certificar-se e torna-se o trabalho lógica a fazer :).
sariii
Para ser mais preciso, ao lidar com um parágrafo, você deve dividi-lo em subparágrafos para que cada subparágrafo corresponda apenas ao rótulo (usando ou não drogas). Em seguida, você deve passar cada subparágrafo ao modelo como uma única observação.
Pythinker 31/05/19
Acho que não entendi exatamente o que você quer dizer: | você também pode dizer em persa que chegarei ao ponto;). voltando à pergunta, pedi a alguns caras que fizessem esse conjunto de dados para mim. Quero dizer, olhando para o parágrafo, dividindo e depois dizendo qual sentença tem esse significado. e se eu não lhes pedisse que explicitamente dissessem qual sentença tem esse significado e apenas aponte qual parágrafo tem esse significado (interromper as drogas ou não). você acha que definir exatamente qual sentença tem esse significado tem sido uma boa ideia, e não qual parágrafo tem esse significado? Espero que eu sou bastante claro :)
sariii