Publication:
Uso de grafos semánticos en la generación automática de resúmenes y estudio de su aplicación en distintos dominios: biomedicina, periodismo y turismo

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2011-05-04
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid, Servicio de Publicaciones
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
En la sociedad en la que vivimos, la información se ha convertido en un bien necesario, a la vez que altamente cotizado, que nos acompaña en todas y cada una de nuestras actividades sociales, culturales y económicas cotidianas. Sin embargo, el crecimiento exponencial de la información a nuestro alcance se presenta como una amenaza a su uso efectivo para la formación de conocimiento,ya que, si bien la disponibilidad de esta información parece estar garantizada, no ocurre lo mismo con el tiempo necesario para procesarla. La Generación Automática de Resúmenes (GAR) trata, en cierta medida, de paliar los efectos negativos de la sobrecarga de información sobre la capacidad de los usuarios para obtener aquella que realmente les interesa y transformarla en conocimiento. Los resúmenes generados automáticamente pueden utilizarse como sustitutos de los documentos originales o simplemente como referencia en la selección de documentos para una lectura más profunda. Más aún, resultan de gran utilidad como paso intermedio en otras tareas de Procesamiento de Lenguaje Natural (PLN). La generación de resúmenes es una de las tareas más complejas de las encuadradas dentro de la más amplia disciplina del PLN, debido a la gran cantidad de otras tareas que implícitamente conlleva, como la detección de temas, la desambiguación léxica, la resolución de referencias, la simplificación de oraciones o la eliminación de redundancia. Si bien casi todas ellas han sido ampliamente estudiadas en la literatura, en el momento de escribir esta memoria no se conoce ningún trabajo que analice el efecto de la ambigüedad en el texto a resumir sobre la calidad de los resúmenes generados automáticamente. Es por ello que en esta tesis doctoral se presta especial atención a la resolución de ambigüedades como un paso previo a la generación del resumen. Tal y como demuestran los resultados, la ambigüedad repercute negativamente en la generación automática de resúmenes, de tal modo que es posible mejorar significativamente la calidad de los resultados mediante el uso de los algoritmos apropiados de desambiguación léxica. El trabajo se completa con tres casos de estudio en los que el método diseñado se configura y utiliza para generar distintos tipos de resúmenes de textos de diferentes dominios y con unas características de estructura y estilo muy dispares: artículos científicos de biomedicina, noticias periodísticas y páginas web de información turística. Los resúmenes generados son evaluados utilizando las métricas ROUGE y los criterios de legibilidad adoptados en las Document Understanding Conferences, y se comparan con los generados por otros sistemas automáticos y con los elaborados por seres humanos. Los resultados corroboran la adecuación del método propuesto a la tarea que nos ocupa.
In recent years, with the increasing publication of online information, providing mechanisms to facilitate finding and presenting textual information has become a critical issue. New technologies, such as high-speed networks and massive storage, are supposed to improve work efficiency by assuring the availability of data everywhere at anytime. However, the exorbitant volume of data available threatens to undermine the convenience of information if no effective access technologies are provided. In this context, automatic text summarization may undoubtedly help to optimize the treatment of electronic documentation and to tailor it to the needs of users. Automatic summarization is one of the most complex Natural Language Processing (NLP) tasks, and this is due to the number of other tasks that implicitly entails, such as topic detection, word sense disambiguation, anaphoric resolution, acronym expansion, sentence simplification and redundancy detection. In particular, this thesis studies a crucial issue that has been previously unexplored, as is the effect of lexical ambiguity in the knowledge source on semantic approaches to summarization, and demonstrates that using word sense disambiguation techniques leads to an improvement in summarization performance. A controversial decision when designing a summarization system is whether it should be general (i.e. able to produce summaries for any type of document) or whether it should be changed by text types (i.e. be specific to documents of a given genre and structure). The advantage of the former is obvious, but the latter strategy has proved to be more effective and capable of improving the quality of the summaries. The main contribution of this thesis is the development of a generic summarization method that combines the advantages of both approaches, by taking into account the structure, genre and domain of the document to be summarized, but is easily configurable to work with new types of documents. The method proposed addresses the problem of identifying salient sentences in a document by representing the text as a semantic graph, using concepts and relations from a knowledge source. This way it gets a richer representation than the one provided by traditional models based on terms. A degree-based clustering algorithm is then used to discover different themes or topics within the text. Different heuristics for sentence selection aiming to generate different types of summaries are tested. The thesis also presents three case studies, in which the summarizer has been configured and used to generate summaries of texts from different domains and with very distinct structure and style: biomedical scientific articles, news items and tourism-related websites. The system is evaluated using the ROUGE metrics and the legibility criteria followed in the DUC conferences. It has been found that it compares favorably with existing approaches.
Description
Tesis de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, leída el 18-02-2011
Keywords
Citation
Collections