Publication:
Recopilación automática de contenido web para agregación de datos y presentación clasificada

Research Projects
Organizational Units
Journal Issue
Abstract
Cuando tratamos de buscar información en la red, recurrimos a buscadores web que nos ofrecen resultados aproximados sobre la información objetivo. Si estamos buscando información detallada dispersa en varias páginas web nos enfrentamos a un gasto de tiempo excesivo. Esto puede resultar para algunos usuarios inaceptable, por lo que concluirá en búsquedas parciales e incompletas del total de posibilidades ofrecidas en internet. Con tanta cantidad de información accesible hoy en día, los buscadores web genéricos como Google, Bing, Safari, Mozilla Firefox e Internet Explorer no pueden dedicar recursos a contenidos excesivamente concretos. Aquí es donde entran en juego los buscadores especializados y comparadores web, cada vez más usados en la actualidad. Hablamos de casos como Trivago, un comparador de hoteles; Rastreator, un comparador de seguros; eDreams, un buscador de vuelos o Booking, un buscador de alojamientos, entre otros. Para realizar este trabajo nos hemos fijado en la web de Zahoribo, un buscador de boletines oficiales del estado español. Esta página usa un motor de búsqueda basado en la indexación llamado Sphinx, el cual tiene muy buenas críticas por su gran velocidad. Y esta fama no es casual: en la web de Zahoribo con más de 6 millones de páginas indexadas, una búsqueda por palabras clave se resuelve en milisegundos. Otra problemática a tener en cuenta entre la población más joven es que elegir la carrera supone una gran decisión. Solo en la Universidad Complutense de Madrid hay más de 60 grados a elegir. Esto, sumado a la incertidumbre y desconocimiento de un futuro estudiante universitario, hace que la tarea de encontrar el grado ideal sea una labor sumamente tediosa y compleja. Con el deseo de ayudar a los futuros estudiantes cuyos planes pasan por ir a la universidad, nos hemos planteado realizar una aplicación para facilitar esta decisión que, sin duda, puede cambiar completamente la vida de los estudiantes. Para este Trabajo Fin de Grado, hemos fusionado estas dos ideas -la búsqueda de carreras y el motor de búsqueda Sphinx- para crear Unisurfing, un buscador de carreras universitarias y másteres. Con información universitaria extraída directamente de páginas web oficiales, Unisurfing nos permite hacer una búsqueda por nombre de las asignaturas y por universidad. De esta manera podemos ver las carreras o másteres que poseen las asignaturas preferidas de los usuarios. Todo lo anterior explotable en una interfaz clara y sencilla que nos permita tener la información actualizada y clasificada.
When we try to find information on the internet, we turn to web search engines that give us approximate results on the objective information. If we are looking for detailed information scattered on several web pages we face an excessive waste of time. This may be unacceptable for some users, which will lead to partial and incomplete searches of the total possibilities offered on the internet. With so much information accessible today, generic web search engines such as Google, Bing, Safari, Mozilla Firefox and Internet Explorer cannot dedicate resources to excessively specific content. This is where the specialized search engines and web comparators, increasingly used today, come into play. We talk about cases like Trivago, a hotel comparator; Rastreator, an insurance comparator; eDreams, a flight search engine or Booking, an accommodation search engine, among others. To carry out this work we have looked at the Zahoribo website, a search engine for official bulletins of the Spanish state. This page uses an indexing-based search engine called Sphinx, which gets rave reviews for its great speed. And this fame is not accidental: on the Zahoribo website with more than 6 million indexed pages, a keyword search is resolved in milliseconds. Another problem to take into account among the younger population is that choosing a career is an important decision. Only at the Complutense University of Madrid there are more than 60 degrees to choose from. This, added to the uncertainty and ignorance of a future university student, makes the task of finding the ideal degree an extremely tedious and complex task. With the desire to help future students whose plans include going to university, we have considered making an application to facilitate this decision that, without a doubt, can completely change the lives of students. For this Degree Final Project, we have merged these two ideas -the career search and the Sphinx search engine- to create Unisurfing, a university degree and master’s degree search engine. With university information taken directly from official web pages, Unisurfing allows us to do a search by name of the subjects and by university. In this way we can see the careers or masters that have the preferred subjects of the users. All of the above exploitable in a clear and simple interface that allows us to have updated and classified information.
Description
Trabajo de Fin de Grado en Ingeniería Informática e Ingeniería del Software, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020-2021.
Unesco subjects
Keywords
Citation