XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊS Autor: GUILHERME CARLOS DE NAPOLI FERREIRA
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
RUY LUIZ MILIDIU - ORIENTADOR
Nº do Conteudo: 29117
Catalogação: 10/02/2017 Liberação: 14/02/2017 Idioma(s): INGLÊS - ESTADOS UNIDOS
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=29117@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=29117@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.29117
Resumo:
Título: UMA ABORDAGEM DE APRENDIZADO DE MÁQUINA PARA SEGMENTAÇÃO TEXTUAL NO PORTUGUÊS Autor: GUILHERME CARLOS DE NAPOLI FERREIRA
Nº do Conteudo: 29117
Catalogação: 10/02/2017 Liberação: 14/02/2017 Idioma(s): INGLÊS - ESTADOS UNIDOS
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=29117@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=29117@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.29117
Resumo:
A segmentação textual é uma tarefa de Processamento de Linguagem Natural
muito relevante, e consiste na divisão de uma sentença em sequências disjuntas
de palavras sintaticamente relacionadas. Um dos fatores que contribuem
fortemente para sua importância é que seus resultados são usados como significativos
dados de entrada para problemas linguísticos mais complexos. Dentre
esses problemas estão a análise sintática completa, a identificação de orações,
a análise sintática de dependência, a identificação de papéis semânticos e a
tradução automática. Em particular, abordagens de Aprendizado de Máquina
para estas tarefas beneficiam-se intensamente com o uso de um atributo de
segmentos textuais. Um número respeitável de eficazes estratégias de extração
de segmentos para o inglês foi apresentado ao longo dos últimos anos. No entanto,
até onde podemos determinar, nenhum estudo abrangente foi feito sobre
a segmentação textual para o português, de modo a demonstrar seus benefícios.
O escopo deste trabalho é a língua portuguesa, e seus objetivos são dois. Primeiramente,
analisamos o impacto de diferentes definições de segmentação,
utilizando uma heurística para gerar segmentos que depende de uma análise
sintática completa previamente anotada. Em seguida, propomos modelos de
Aprendizado de Máquina para a extração de segmentos textuais baseados na
técnica Aprendizado de Transformações Guiado por Entropia. Fazemos uso do
corpus Bosque, do projeto Floresta Sintá(c)tica, nos nossos experimentos. Utilizando
os valores determinados diretamente por nossa heurística, um atributo
de segmentos textuais aumenta a métrica F beta igual 1 de um sistema de identificação
de orações para o português em 6.85 e a acurácia de um sistema de análise
sintática de dependência em 1.54. Ademais, nosso melhor extrator de segmentos
apresenta um F beta igual 1 de 87.95 usando anotaçoes automáticas de categoria
gramatical. As descobertas indicam que, de fato, a informação de segmentação
textual derivada por nossa heurística é relevante para tarefas mais elaboradas
cujo foco é o português. Além disso, a eficácia de nossos extratores é comparável à dos similares do estado-da-arte para o inglês, tendo em vista que os
modelos propostos são razoavelmente simples.