Huertas, Álvaro (2008) Hacia un enfoque de la búsqueda de Información en textos de Lenguaje Natural Basada en los Conceptos de Medida de Teoría Cuántica. In: Primer Encuentro de Enseñanza de la Informática, Noviembre 13 al 15 de 2008, Universidad de Nariño - Colombia.
|
Text
enfoque de búsqueda de información (ponencia).pdf Download (511kB) | Preview |
|
|
Text
enfoque de búsqueda de información.pdf Download (1MB) | Preview |
Resumen
En el área búsqueda de información en colecciones grandes de documentos de texto sin estructura y en lenguaje natural, las metodologías más exitosas se han basado en diversas mediciones de tendencias en el uso de términos individuales, es decir, en mediciones lexicográficas. La ocurrencia de los términos en los documentos ponderada por su aporte informativo ha sido ampliamente utilizada en sus esquemas TF-IDF (Term-Frequency-Inverse-Document-Frequency) y BM25, y la co-ocurrencia de pares de términos es un tema promisorio de investigación. En este trabajo, se propone una aproximación desde primeros principios a la medición lexicográfica, que desemboca en la definición de transformaciones sobre documentos que guardan similitudes formales con las mediciónes sobre sistemas físicos tal como las describe la Teoría Cuántica. En particular, se utilizan relaciones lógicas de implicación entre mediciones, que se desvían del carácter booleano que presentan las mediciones en física clásica, por lo que podemos hablar de objetos que generan una lógica cuántica. Las relaciones lógicas entre mediciones permiten definir un borrador tópico que preservará gran parte de los documentos relevantes a un tópico y borrará gran parte de los no relevantes. De esta manera, se sientan las bases para una metodología que permite buscar información basada en la detección atuomática de relaciones semánticas entre las palabras usadas que permite mejorar el desempeño de motores de búsqueda y sistemas de información que traten con colecciones no estructuradas de documentos en lenguaje natural, como lo son diversas fuentes didácticas. En este trabajo, se presentan resultados preliminares de evaluación de la metodología propuesta sobre la subcolección Associated Press 88 (AP88) de la colección TREC 1 (Test Retrieval Conference 1), compuesta de 79923 documentos, 8080 de los cuales han sido evaluados como relevantes o no relevantes a un conjunto estándar de tópicos o búsquedas, entre ellos, tomamos los tópicos 51 a 100 para la evaluación de la metodología.
Tipo de Elemento: | Conferencia o Taller artículo (Lecture) |
---|---|
Palabras Clave: | Búsqueda de Información, Análisis de Lenguaje Natural, Modelos Teóricos, Minería de Datos, Lógica Cuántica. |
Asunto: | L Educación > LB Theory and practice of education > LB2300 Higher Education |
Division: | Facultad de Ciencias Exactas y Naturales > Programa de Licenciatura en Informática > Eventos > Primer Encuentro de Enseñanza de la Informática 2008 |
Depósito de Usuario: | Depto Matemáticas y Estadística |
Fecha Deposito: | 19 Sep 2014 16:11 |
Ultima Modificación: | 23 May 2016 15:00 |
URI: | http://sired.udenar.edu.co/id/eprint/176 |
Ver Elemento |