XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: PART-OF-SPEECH TAGGING FOR PORTUGUESE Autor: ROMULO CESAR COSTA DE SOUSA
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
HELIO CORTES VIEIRA LOPES - ADVISOR
Nº do Conteudo: 47361
Catalogação: 07/04/2020 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.47361
Resumo:
Título: PART-OF-SPEECH TAGGING FOR PORTUGUESE Autor: ROMULO CESAR COSTA DE SOUSA
Nº do Conteudo: 47361
Catalogação: 07/04/2020 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.47361
Resumo:
Part-of-speech (POS) tagging is a process of labeling each word
in a sentence with a morphosyntactic class (verb, noun, adjective and
etc). POS tagging is a fundamental part of the linguistic pipeline, most
natural language processing (NLP) applications demand, at some step,
part-of-speech information. In this work, we constructed a POS tagger
for Contemporary Portuguese and Historical Portuguese, using a recurrent
neural network architecture. Traditionally the development of these tools
requires many handcraft features and external data, our POS tagger does
not use these elements. We trained a Bidirectional Long short-term memory
(BLSTM) network that benefits from the word embeddings and character
embeddings representations of the words, for morphosyntactic classification.
We tested our POS tagger on three different corpora: the original version
of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus,
and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for
the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus,
97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the
Tycho Brahe corpus. We also achieved an improvement in the three corpora
in out-of-vocabulary accuracy, that is the accuracy on words not seen in
training sentences. We also performed a comparative study to test which
different types of word embeddings (Word2Vec, FastText, Wang2Vec, and
Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model
showed higher performance.
Descrição | Arquivo |
COMPLETE |