Complutense University Library

Agrupación y resúmenes multi-documento de noticias de periódicos web

García-Mauriño González-Conde, Fernando and Gordillo Berlanga, Eduardo and Puebla Sainz, Carlos (2011) Agrupación y resúmenes multi-documento de noticias de periódicos web. [Coursework] (Unpublished)

[img]
Preview
PDF
3MB
View download statistics for this eprint

==>>> Export to other formats

Abstract

Este proyecto consiste en el diseño y desarrollo de una aplicación capaz de generar de forma automática resúmenes multi-documento a partir de noticias extraídas de las páginas web de distintos periódicos. Para ello hemos desarrollado varios módulos independientes, capaces de capturar las noticias de las páginas web de los periódicos, agrupar esas noticias en grupos que traten un mismo tema y finalmente generar los resúmenes multi-documento de cada una de las agrupaciones. Además, realizamos una evaluación de las agrupaciones y de la calidad de los resúmenes.
Se trata de una aplicación completamente configurable en la que, entre otras cosas, se pueden añadir periódicos donde buscar noticias, seleccionar los pesos de las heurísticas de generación de resúmenes, seleccionar el umbralde similitud para la agrupación de noticias. Todo esto con el fin de que el usuario pueda probar distintas configuraciones y quedarse con la que mejor funcione para su caso concreto.
[ABSTRACT]
This project is an application that automatically generates multi-document summaries from news that come from newspapers websites. To this end, we have developed several independent modules. These modules capturethe news from the websites and make single issue groups. Finally they generate a multi-document summary for each group. We have also developed modules that evaluate the clustering process and the quality of the summaries. This is a configurable application that allows the user toadd or delete newspapers, modify heuristic weight-setting and choose the threshold that generates the best cluster. In this way, the user can test different configurations and choose the one that best fits their needs.

Item Type:Coursework
Additional Information:Proyecto de Sistemas Informáticos (Facultad de Informática, Curso 2010-2011)
Uncontrolled Keywords:Noticias, Cluster, Agrupación, Resumen, Multi-documento.
Subjects:Sciences > Computer science > Expert systems (Computer science)
ID Code:13046
Deposited On:25 Aug 2011 08:14
Last Modified:06 Feb 2014 09:39

Repository Staff Only: item control page