XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: PART-OF-SPEECH TAGGING PARA PORTUGUÊS Autor: ROMULO CESAR COSTA DE SOUSA
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
HELIO CORTES VIEIRA LOPES - ORIENTADOR
Nº do Conteudo: 47361
Catalogação: 07/04/2020 Liberação: 07/04/2020 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.47361
Resumo:
Título: PART-OF-SPEECH TAGGING PARA PORTUGUÊS Autor: ROMULO CESAR COSTA DE SOUSA
Nº do Conteudo: 47361
Catalogação: 07/04/2020 Liberação: 07/04/2020 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.47361
Resumo:
Part-of-speech (POS) tagging é o processo de categorizar cada palavra
de uma sentença com sua devida classe morfossintática (verbo, substantivo,
adjetivo e etc). POS tagging é considerada uma atividade fundamental no
processo de construção de aplicações de processamento de linguagem natural
(PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de
informação. Nesse trabalho, construímos um POS tagger para o Português
Contemporâneo e o Português Histórico, baseado em uma arquitetura de
rede neural recorrente. Tradicionalmente a construção dessas ferramentas
requer muitas features específicas do domínio da linguagem e dados externos
ao conjunto de treino, mas nosso POS tagger não usa esses requisitos.
Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que
se beneficia das representações de word embeddings e character embeddings
das palavras, para atividade de classificação morfossintática. Testamos nosso
POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe.
Nós obtemos um desempenho ligeiramente melhor que os sistemas estado
da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original,
97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para
Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para
a medida de acurácia fora do vocabulário, uma acurácia especial calculada
somente sobre as palavras desconhecidas do conjunto de treino. Realizamos
ainda um estudo comparativo para verificar qual dentre os mais populares
algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec
e Glove), é mais adequado para a atividade POS tagging em Português. O
modelo de Wang2Vec mostrou um desempenho superior.
Descrição | Arquivo |
NA ÍNTEGRA |