Sumarização automática de textos baseada em conceitos via programação linear inteira e regressão

Sumarização Automática de Textos é o processo de criação automático de um resumo contendo as informações mais relevantes, a partir de um único documento (monodocumento) ou de um grupo de documentos relacionados (multidocumento). O interesse no desenvolvimento de novos e eficientes sistemas de sumari...

Full description

Main Author: OLIVEIRA, Hilário Tomaz Alves de
Other Authors: FREITAS, Frederico Luiz Gonçalves de
Format: doctoralThesis
Language: por
Published: Universidade Federal de Pernambuco 2019
Subjects:
Online Access: https://repositorio.ufpe.br/handle/123456789/30618
Tags: Add Tag
No Tags, Be the first to tag this record!
Summary: Sumarização Automática de Textos é o processo de criação automático de um resumo contendo as informações mais relevantes, a partir de um único documento (monodocumento) ou de um grupo de documentos relacionados (multidocumento). O interesse no desenvolvimento de novos e eficientes sistemas de sumarização é crescente, já que eles possuem o potencial de auxiliar no processamento de grandes volumes de documentos textuais, ressaltando as informações mais relevantes para os usuários. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das atuais estratégias de sumarização são estáticas, ou seja, adotam um método de sumarização com um conjunto de parâmetros pré-definido para todos os documentos de entrada. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essa característica é uma significante limitação, já que a adoção de um único método de sumarização não consegue obter um alto desempenho para todos os documentos, mesmo quando eles pertencem ao mesmo domínio. Neste contexto, este trabalho propõe uma abordagem baseada em conceitos utilizando Programação Linear Inteira (PLI) e regressão para as tarefas de sumarização monodocumento e multidocumento de artigos de notícias. A arquitetura da solução proposta é composta por duas etapas principais: a geração de diversos resumos candidatos e, posteriormente, a identificação e seleção do resumo mais informativo. Duas abordagens baseadas em conceitos usando PLI são propostas para a geração dos resumos candidatos nas tarefas de sumarização monodocumento e multidocumento. Tais abordagens possibilitam a exploração de diversas configurações, permitindo a geração de uma grande variedade de resumos candidatos representando diferentes perspectivas. As abordagens propostas são integradas em uma macro arquitetura com a etapa de seleção do resumo mais informativo. Essa etapa de seleção vislumbra estimar a cobertura de informações relevantes presentes nos resumos candidatos gerados, permitindo assim, a identificação do resumo estimado como mais representativo. Para isso, diversas características baseadas em tradicionais indicadores de relevância, como posição, frequência e centralidade, identificadas na literatura e outras propostas neste trabalho, são exploradas para a construção de um modelo de regressão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento e multidocumento. Os resultados obtidos demonstram que as soluções propostas, para ambas as tarefas de sumarização, são capazes de aumentar a informatividade dos resumos gerados, com base nas medidas de cobertura do ROUGE-1 e ROUGE-2, em comparação com outros sistemas do estado da arte.