O livro tem uma nota sobre como encontrar ajuda nos conjuntos de tags, por exemplo:
nltk.help.upenn_tagset()
Outros são provavelmente semelhantes. (Observação: talvez você precise primeiro fazer tagsets
o download na seção Modelos do auxiliar de download para isso)
RB
para o seu significadoadverb
. ( Aqui está um exemplo ; ou veja a resposta da @ Suzana, que vincula o conjunto de etiquetas do Penn Treebank ). Mas você está certo, o builtinnltk.help.upenn_tagset('RB')
é útil e mencionado no início donltk
livro ,Para economizar tempo com algumas pessoas, aqui está uma lista que extraí de um pequeno corpus. Não sei se está completo, mas deve ter a maioria (se não todas) das definições de ajuda de upenn_tagset ...
CC : conjunção, coordenação
CD : numeral, cardeal
DT : determinante
EX : existencial lá
IN : preposição ou conjunção, subordinação
JJ : adjetivo ou numeral, ordinal
JJR : adjetivo, comparativo
JJS : adjetivo, superlativo
LS : marcador de item de lista
MD : auxiliar modal
NN : substantivo, comum, singular ou massa
PNN : substantivo, próprio, singular
NNS : substantivo, comum, plural
PDT : pré-determinante
POS : marcador genitivo
PRP : pronome pessoal
PRP $: pronome, possessivo
RB : advérbio
RBR : advérbio, comparativo
RBS : advérbio, superlativo
RP : partícula
TO : "to" como preposição ou marcador infinitivo
UH : interjeição
VB : verbo, forma base
VBD : verbo, pretérito
VBG : verbo, particípio presente ou gerúndio
VBN : verbo, particípio passado
VBP : verbo, tempo presente, não terceira pessoa do singular
VBZ : verbo, tempo presente, terceira pessoa do singular
WDT : determinante WH
WP : pronome WH
WRB : advérbio de Wh
fonte
$
,''
,(
,)
,,
,--
,.
,:
,FW
,NNPS
,SYM
,WP$
, [dois acentos graves]. Vejanltk.help.upenn_tagset()
.O conjunto de tags depende do corpus usado para treinar o etiquetador. O etiquetador padrão
nltk.pos_tag()
usa o Penn Treebank Tag Set .No NLTK 2, você pode verificar qual marcador é o marcador padrão da seguinte maneira:
Isso significa que é um etiquetador Maximum Entropy treinado no corpus do Treebank.
nltk.tag._POS_TAGGER
não existe mais no NLTK 3, mas a documentação afirma que o etiquetador de prateleira ainda usa o conjunto de etiquetas Penn Treebank.fonte
nltk.tag._POS_TAGGER
não é executado e nenhuma instrução específica é fornecida sobre o que importar. Além disso, descobrir o tagger a ser utilizado é metade da resposta, a questão está pedindo para obter uma lista de todas as tags possíveis dentro do taggerO abaixo pode ser útil para acessar um ditado digitado por abreviações:
fonte
A referência está disponível no site oficial
Copie e cole a partir daí:
fonte
Você pode fazer o download da lista aqui: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Inclui partes confusas do discurso, letras maiúsculas e outras convenções. Além disso, a wikipedia possui uma seção interessante semelhante a esta. Seção: Tags de parte do discurso usadas.
fonte
Baseado no método de Doug Shore, mas torna mais fácil copiar e colar
fonte
Basta executar este texto literalmente.
nltk.tag._POS_TAGGER
não vai funcionar. Isso dará ao AttributeError: o módulo 'nltk.tag' não tem atributo '_POS_TAGGER' . Ele não está mais disponível no NLTK 3.fonte