domingo, 5 de mayo de 2013

Búsqueda y recuperación de información en buscadores.



Para empezar hablando de este tema primero tenemos que definir que es la búsqueda y recuperación de información, que es:  "la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionases, ya sea a través de internet, intranet, y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante".
Los primeros sistemas que servían para la recuperación de información, fueron presentados durante la década de 1950 a 1960.
Existen una serie de medidas de rendimiento y correctitud que son: 

  • Precisión: En el se tiene en cuenta todos los documentos recuperados, puede formar parte de un ranking, en el que aparecen los primeros elementos unicamente.
  • Recobrado: Es un método que solo no es suficiente, necesita medir el número de documentos no relevantes.
  • Proposición de fallo: Es un porcentaje de documentos que no sirven (no interesan) que son recuperados, sobre todos los documentos relevantes que se encuentran disponibles.
  • Precisión Promedio: La Precisión y el recobrado son metricas que se basan en toda la lista de documentos que se retorna por el sistema en una consulta. En cuanto a los sistemas que hacen ranking a los documentos retornados se debe considerar el orden en que los documentos retornados son presentados.
Tipos de modelos:

  • Primera dimensión (Base Matemática)
Esta primera división está formada por un conjunto de modelos matemáticos en los que podemos destacar:
  1. Modelos basados en la teoría de conjuntos: En el los documentos se pueden representar como un conjunto de palabras o frases. Destaca dentro de este modelo el Booleano.
  2. Modelos algebraicos: En este modelo se representa los documentos comovectores o matrices. Destaca el modelo vectorial.
  3. Modelos probabilísticos: En el destaca las redes de creencia.
  • Segunda División (Propiedades de los modelos): 
  1. Modelos sin independencia de términos.
  2. Modelos con dependencia de términos.
  • Existen un conjunto de técnicas de recuperación de la información que son:
  1. Sistemas de recuperación de lógica difusa
  2. Técnicas de ponderación de términos
  3. Técnica de clustering
  4. Técnicas de retroalimentación por relevancia
  5. Técnicas de stemming.

Utilizando estas técnicas deberíamos recuperar la máxima información, pero para comprobar el éxito o fracaso de las técnicas existen un conjunto de criterios como pueden ser: Tasa de acierto que consiste en dividir el número de elementos recuperados entre el total de los que queríamos...



1 comentario:

  1. Very significant Information for us, I have think the representation of this Information is actually superb one. This is my first visit to your site. Data warehouse ecuador

    ResponderEliminar