XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTER Autor: PEDRO LARRONDA ASTI
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
RUY LUIZ MILIDIU - ORIENTADOR
Nº do Conteudo: 18481
Catalogação: 13/10/2011 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.18481
Resumo:
Título: ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTER Autor: PEDRO LARRONDA ASTI
Nº do Conteudo: 18481
Catalogação: 13/10/2011 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.18481
Resumo:
Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa
de Anotação morfossintática de mensagens em português postadas no
Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter,
é fácil verificar que novos caracteres são introduzidos no alfabeto e também
que novas palavras são adicionadas ao idioma. Além disso, observamos que
essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso
nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas
em uma nova língua, o português-twitter. O alfabeto dessa nova língua
contém o alfabeto do português e o seu vocabulário contém o vocabulário da
língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os
processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado
denominada Entropy Guided Transformation Learning
(ETL). Adicionalmente, para treinar os processadores ETL, construímos um
corpus anotado de mensagens em português-twitter. Não temos conhecimento
da existência de outros Anotadores Morfossintáticos para o português-twitter.
Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o
português, a acurácia é de aproximadamente 96%, variando de acordo com
o conjunto de classes escolhido. Construímos o processador composto de dois
estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos
a acurácia, que mede quantos por cento do corpus foi anotado corretamente.
Nossos resultados experimentais apresentam uma acurácia de 90,24%
para o anotador proposto. Isto corresponde a um aprendizado significativo,
pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é
compatível com o aprendizado observado nos correspondentes processadores
na língua portuguesa.