Biblioteca de la Universidad Complutense de Madrid

Agrupación y resúmenes multi-documento de noticias de periódicos web

Impacto



García-Mauriño González-Conde, Fernando y Gordillo Berlanga, Eduardo y Puebla Sainz, Carlos (2011) Agrupación y resúmenes multi-documento de noticias de periódicos web. [Trabajo de curso] (No publicado)

[img]
Vista previa
PDF
3MB


Resumen

Este proyecto consiste en el diseño y desarrollo de una aplicación capaz de generar de forma automática resúmenes multi-documento a partir de noticias extraídas de las páginas web de distintos periódicos. Para ello hemos desarrollado varios módulos independientes, capaces de capturar las noticias de las páginas web de los periódicos, agrupar esas noticias en grupos que traten un mismo tema y finalmente generar los resúmenes multi-documento de cada una de las agrupaciones. Además, realizamos una evaluación de las agrupaciones y de la calidad de los resúmenes.
Se trata de una aplicación completamente configurable en la que, entre otras cosas, se pueden añadir periódicos donde buscar noticias, seleccionar los pesos de las heurísticas de generación de resúmenes, seleccionar el umbralde similitud para la agrupación de noticias. Todo esto con el fin de que el usuario pueda probar distintas configuraciones y quedarse con la que mejor funcione para su caso concreto.
[ABSTRACT]
This project is an application that automatically generates multi-document summaries from news that come from newspapers websites. To this end, we have developed several independent modules. These modules capturethe news from the websites and make single issue groups. Finally they generate a multi-document summary for each group. We have also developed modules that evaluate the clustering process and the quality of the summaries. This is a configurable application that allows the user toadd or delete newspapers, modify heuristic weight-setting and choose the threshold that generates the best cluster. In this way, the user can test different configurations and choose the one that best fits their needs.


Tipo de documento:Trabajo de curso
Información Adicional:

Proyecto de Sistemas Informáticos (Facultad de Informática, Curso 2010-2011)

Palabras clave:Noticias, Cluster, Agrupación, Resumen, Multi-documento.
Materias:Ciencias > Informática > Sistemas expertos
Código ID:13046
Depositado:25 Aug 2011 08:14
Última Modificación:06 Feb 2014 09:39

Sólo personal del repositorio: página de control del artículo