Clasificación de páginas web en dominio específico
Empreu sempre aquest identificador per citar o enllaçar aquest ítem
http://hdl.handle.net/10045/8069
Títol: | Clasificación de páginas web en dominio específico |
---|---|
Títol alternatiu: | Web page classification in specific domain |
Autors: | Rangel Pardo, Francisco Manuel | Peñas Padilla, Anselmo |
Paraules clau: | Clasificación Web | Categorización Web | Dominios específicos | Intención del autor | Meta-información | Metadatos | Cabecera | Enlaces | Url | H&L&U | Web classification | Web categorization | Specific domains | Author's intention | Meta-information | Metadata | Header | Links |
Data de publicació: | de setembre-2008 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citació bibliogràfica: | RANGEL PARDO, Francisco Manuel; PEÑAS PADILLA, Anselmo. “Clasificación de páginas web en dominio específico”. Procesamiento del lenguaje natural. N. 41 (sept. 2008). ISSN 1135-5948, pp. 89-96 |
Resum: | El presente trabajo obtiene una representación novedosa y que proporciona un alto rendimiento en la clasificación automática de páginas Web en dominios específicos. Para ello el estudio se centra en obtener una representación formal de la intencionalidad del autor por transmitir información acerca de la página que crea y que se plasma en la meta-información de la misma, en la estructura de enlaces (Links), y en la Url. Se ha construido una colección de pruebas específica del dominio del teatro y la aproximación presentada ha obtenido unas tasas de rendimiento, medidas tanto por el estadístico F como por el intervalo de error cometido, superiores a los métodos existentes en el estado del arte. | This paper obtains a novel representation that provides high performance in the automatic classification of web pages in specific domains. For this the study is focused on obtaining a formal representation of the author's intent to convey information about the web pages that he creates and that is reflected in the meta-information of the same page, in the structure of links, and in the URL. A dataset has been built in the specific domain of theater and the approach presented has obtained a performance raiting, measured both by statistical F and by the interval committed error, higher than existing methods in the state of the art. |
Patrocinadors: | Este trabajo ha sido subvencionado parcialmente por el proyecto QEAVis-Catiex (TIN2007-67581-C02-01) del Ministerio de Ciencia e Innovación. |
URI: | http://hdl.handle.net/10045/8069 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipus: | info:eu-repo/semantics/article |
Apareix a la col·lecció: | Procesamiento del Lenguaje Natural - Nº 41 (septiembre 2008) |
Arxius per aquest ítem:
Arxiu | Descripció | Tamany | Format | |
---|---|---|---|---|
PLN_41_11.pdf | 201,12 kB | Adobe PDF | Obrir Vista prèvia | |
Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.