Recopilación automática de contenido web para agregación de datos y presentación clasificada
Automatic collection of web content for data aggregation and classified presentation

Impacto

Downloads

Downloads per month over past year



González Barrado, Fernando and González Montero, Daniel (2021) Recopilación automática de contenido web para agregación de datos y presentación clasificada. [Trabajo Fin de Grado]

[thumbnail of GONZÁLEZ BARRADO 82423_FERNANDO_GONZALEZ_BARRADO_Recopilacion_automatica_de_contenido_web_1006096_239011049.pdf]
Preview
PDF
Creative Commons Attribution Non-commercial.

2MB


Abstract

Cuando tratamos de buscar información en la red, recurrimos a buscadores web que nos ofrecen resultados aproximados sobre la información objetivo. Si estamos buscando información detallada dispersa en varias páginas web nos enfrentamos a un gasto de tiempo excesivo. Esto puede resultar para algunos usuarios inaceptable, por lo que concluirá en búsquedas parciales e incompletas del total de posibilidades ofrecidas en internet.
Con tanta cantidad de información accesible hoy en día, los buscadores web genéricos como Google, Bing, Safari, Mozilla Firefox e Internet Explorer no pueden dedicar recursos a contenidos excesivamente concretos. Aquí es donde entran en juego los buscadores especializados y comparadores web, cada vez más usados en la actualidad. Hablamos de casos como Trivago, un comparador de hoteles; Rastreator, un comparador de seguros; eDreams, un buscador de vuelos o Booking, un buscador de alojamientos, entre otros.
Para realizar este trabajo nos hemos fijado en la web de Zahoribo, un buscador de boletines oficiales del estado español. Esta página usa un motor de búsqueda basado en la indexación llamado Sphinx, el cual tiene muy buenas críticas por su gran velocidad. Y esta fama no es casual: en la web de Zahoribo con más de 6 millones de páginas indexadas, una búsqueda por palabras clave se resuelve en milisegundos.
Otra problemática a tener en cuenta entre la población más joven es que elegir la carrera supone una gran decisión. Solo en la Universidad Complutense de Madrid hay más de 60 grados a elegir. Esto, sumado a la incertidumbre y desconocimiento de un futuro estudiante universitario, hace que la tarea de encontrar el grado ideal sea una labor sumamente tediosa y compleja. Con el deseo de ayudar a los futuros estudiantes cuyos planes pasan por ir a la universidad, nos hemos planteado realizar una aplicación para facilitar esta decisión que, sin duda, puede cambiar completamente la vida de los estudiantes.
Para este Trabajo Fin de Grado, hemos fusionado estas dos ideas -la búsqueda de carreras y el motor de búsqueda Sphinx- para crear Unisurfing, un buscador de carreras universitarias y másteres. Con información universitaria extraída directamente de páginas web oficiales, Unisurfing nos permite hacer una búsqueda por nombre de las asignaturas y por universidad. De esta manera podemos ver las carreras o másteres que poseen las asignaturas preferidas de los usuarios. Todo lo anterior explotable en una interfaz clara y sencilla que nos permita tener la información actualizada y clasificada.

Resumen (otros idiomas)

When we try to find information on the internet, we turn to web search engines that give us approximate results on the objective information. If we are looking for detailed information scattered on several web pages we face an excessive waste of time. This may be unacceptable for some users, which will lead to partial and incomplete searches of the total possibilities offered on the internet. With so much information accessible today, generic web search engines such as Google, Bing, Safari, Mozilla Firefox and Internet Explorer cannot dedicate resources to excessively specific content. This is where the specialized search engines and web comparators, increasingly used today, come into play. We talk about cases like Trivago, a hotel comparator; Rastreator, an insurance comparator; eDreams, a flight search engine or Booking, an accommodation search engine, among others. To carry out this work we have looked at the Zahoribo website, a search engine for official bulletins of the Spanish state. This page uses an indexing-based search engine called Sphinx, which gets rave reviews for its great speed. And this fame is not accidental: on the Zahoribo website with more than 6 million indexed pages, a keyword search is resolved in milliseconds. Another problem to take into account among the younger population is that choosing a career is an important decision. Only at the Complutense University of Madrid there are more than 60 degrees to choose from. This, added to the uncertainty and ignorance of a future university student, makes the task of finding the ideal degree an extremely tedious and complex task. With the desire to help future students whose plans include going to university, we have considered making an application to facilitate this decision that, without a doubt, can completely change the lives of students. For this Degree Final Project, we have merged these two ideas -the career search and the Sphinx search engine- to create Unisurfing, a university degree and master’s degree search engine. With university information taken directly from official web pages, Unisurfing allows us to do a search by name of the subjects and by university. In this way we can see the careers or masters that have the preferred subjects of the users. All of the above exploitable in a clear and simple interface that allows us to have updated and classified information.

Item Type:Trabajo Fin de Grado
Additional Information:

Trabajo de Fin de Grado en Ingeniería Informática e Ingeniería del Software, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020-2021.

Directors:
Directors
Bernabé García, Sergio
Muñoz Fernández, Emilio José
Uncontrolled Keywords:Buscador web, Comparador web, Motor de búsqueda, Indexación, Zahoribo, Gema, Sphinx, Ruby on Rails.
Palabras clave (otros idiomas):Web search engines, Web comparator, Search engine, Indexing, Zahoribo, Gem, Sphinx, Ruby on Rails.
Subjects:Sciences > Computer science
Título de Grado:Grado en Ingeniería Informática. Grado en Ingeniería del Software
ID Code:68349
Deposited On:05 Nov 2021 17:05
Last Modified:05 Nov 2021 17:05

Origin of downloads

Repository Staff Only: item control page