Complutense University Library

Integración de técnicas de clasificación de texto y modelado de usuario para la personalización en servicios de noticias

Díaz Esteban, Alberto (2006) Integración de técnicas de clasificación de texto y modelado de usuario para la personalización en servicios de noticias. [Thesis]

Official URL: http://eprints.ucm.es/tesis/eis/ucm-t28506.pdf

View download statistics for this eprint

==>>> Export to other formats

Abstract

En los últimos años, la información disponible en formato electrónico se ha incrementado de tal manera que es muy difícil no verse saturado cuando uno intenta encontrar la información que realmente le interesa. Los contenidos Web aparecen de muy diversas maneras en distintos dominios de aplicación pero en la mayoría de ellos la forma de presentación de la información es la misma para todos los usuarios, es decir, esos contenidos son estáticos en el
sentido de que no se adaptan a cada usuario desde dos puntos de vista: ni son presentados de manera diferente para cada usuario ni se adaptan a los cambios en los intereses del usuario a lo largo del tiempo. La personalización de contenidos Web trata de eliminar la sobrecarga de información mediante la adaptación de los contenidos a cada tipo de usuario y a lo largo del
tiempo.
En esta tesis se muestra un enfoque integrado de personalización de contenidos Web, aplicado a servicios de noticias, basado en tres funcionalidades principales: selección de contenidos, adaptación del modelo de usuario y presentación de resultados. Todos estos procesos están basados en la representación de los intereses del usuario que estarán reflejadas en un perfil o modelo de usuario. La selección de contenidos se refiere a la elección entre
todos los documentos de entrada de aquellos más interesantes para un usuario dado. La adaptación del modelo de usuario es necesaria ya que las necesidades de los usuarios cambian a lo largo del tiempo, sobre todo como resultado de su interacción con la información que
reciben. La presentación de resultados consiste en, una vez seleccionados los elementos de información que más le interesan a un usuario, mostrar un documento resultado que contenga, para cada elemento seleccionado, un extracto que sea indicativo de su contenido. En particular, se ha generado un resumen personalizado por cada elemento de información seleccionado para cada usuario.
El modelo de usuario utilizado integra cuatro tipos de sistemas de referencia que permiten representar los intereses de los usuarios desde diferentes puntos de vista. Estos intereses están divididos en dos tipos: intereses a largo plazo e intereses a corto plazo. Los primeros
representan intereses del usuario que permanecen constantes a lo largo del tiempo, mientras que los segundos representan los intereses que se van modificando. A su vez, el modelo a largo plazo utiliza tres métodos de clasificación que permiten al usuario definir sus necesidades de información desde 3 puntos de vista diferentes: un sistema de clasificación dependiente
del dominio, donde los documentos están preclasificados por el autor del documento (p.ej.: secciones en un periódico), un sistema de clasificación independiente del dominio,
obtenido a partir de las categorías del primer nivel de Yahoo! España y un conjunto de palabras clave.
Los distintos procesos de personalización se basan en técnicas estadísticas de clasificación de texto que se aplican tanto a los documentos como a los modelos de usuario. Las tareas de clasificación de texto que se utilizan están relacionadas con la recuperación de información, la categorización de textos, la realimentación y la generación de resúmenes.
La evaluación de los sistemas de personalización es especialmente compleja debido a que son necesarias las opiniones de distintos usuarios para poder obtener conclusiones relevantes sobre su funcionamiento. Para evaluar los distintos procesos de personalización se han generado varias colecciones de evaluación donde se almacenan los juicios de relevancia de varios
usuarios durante varios días de utilización del sistema. Estas colecciones han permitido probar los distintos enfoques propuestos para determinar cuál de ellos era la mejor elección.
Además estas colecciones pueden ser utilizadas posteriormente por otros investigadores para comparar los resultados de sus técnicas de personalización.
Las evaluaciones realizadas han mostrado que la propuesta de personalización basada en la combinación de modelos de usuario a largo y corto plazo, con resúmenes personalizados
como forma de presentar los resultados finales, permite disminuir la sobrecarga de información de los usuarios, independientemente del dominio y del idioma, en un sistema de personalización de contenidos Web aplicado a servicios de noticias.
ABSTRACT
In the last years, the electronic information available has increased in such way that it is very difficult not to feel the overload when one try to find the information in which is really interested.
Web content appears in many forms over different domains of application, but in most cases the form of presentation is the same for all users. The contents are static in the
sense that they are not adapted to each user from two points of view: they are neither presented in a different way from each user nor capable of adapting to the interest changes of the users. Content personalization is a technique that tries to avoid information overload
through the adaptation of web contents to each type of user and to the interest changes of the users.
In this thesis an integrated approach of Web content personalization applied to news services is shown. This approach is based on three main functionalities: content selection, user model adaptation and results presentation. For these functionalities to be carried out in a
personalized manner, they must be based on information related to the user that must be reflected in his user profile or user model. Content selection refers to the choice of the particular subset of all available documents that will be more relevant for a given user. User model adaptation is necessary because user needs change over time, especially as result of his interaction with information. Results presentation involves generating a new result web document that contains, for each selected item, an extract that is indicative of its content. In
particular, a personalized summary for each selected item for each user has been generated.
The user model integrates four types of reference systems that allow a representation of the interests of the users from different points of view. These interests are divided into two types: long term interests and short term interests. The first type represents interests of the
user that remain constant over time, and the second represents the interests that are modified.
The long term model uses three classification methods that allow the user to define his information needs from three different points of view: a domain dependent classification
system, where the documents are pre-classified by the document author (e.g.: sections in a newspaper), an independent domain classification system, obtained of the first level categories of Yahoo! Spain, and a set of keywords.
The different personalized processes are based on statistic classification text techniques that are applied as to the documents and to the user models. The text classification tasks that are used are related with information retrieval, text categorization, relevance feedback and text summarization.
The evaluation of personalized systems is especially complex because the opinions of different users are necessary to be able to obtain relevant conclusions about system performance.
To evaluate the different personalization processes some evaluation collections have been generated where the relevance judges of various users over various days are stored.
These collections have made it possible to try different approaches to determine which are the best choices for this purpose. Moreover other investigators can use these collections to compare the results of their personalization techniques.
The evaluations have showed that the personalization approach based on the combination of long term and short term models, with personalized summaries as way to present the final results, achieves a certain reduction of the information overload of the users, independently of the domain and the language, in a Web content personalization system applied to news services.


Item Type:Thesis
Additional Information:

Tesis de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Sistemas Informáticos y Programación, leída el 13-07-2005

Directors:
DirectorsDirector email
Gervás Gómez-Navarro, Pablo
Buenaga Rodríguez, Manuel de
Uncontrolled Keywords:Web semántica
Subjects:Sciences > Computer science > Computer networks
ID Code:7127
Deposited On:16 Jan 2008
Last Modified:30 Oct 2011 14:10

Repository Staff Only: item control page