AntoSweet: junio 2009

Google Académico, también conocido como Scholar Google, es un buscador en línea que facilita la búsqueda de trabajos de investigación. Alcanza a un amplio espectro de áreas, desde informática a física o derecho, ya que emplea algoritmos especialmente diseñados para el entorno académico, de ahí que sea de gran ayuda para científicos, docentes, investigadores y estudiantes en general.

¿Dónde busca?
Google Académico utiliza la inteligencia de la indexación de Google pero acotando las búsquedas al dominio académico, el resultado: un potente buscador de citas bibliográficas, artículos científicos en texto completo, tesis, monografías, libros y material de las bases de datos académicas más prestigiosas.

Estos son algunos de los sitios indexados por Google Académico:
• Grandes bases de datos, Editoriales reconocidas y Universidades: MEDLINE, BIREME, IEEE, ACM, Macmillan, Wiley, University of Chicago.
• Base de Datos digitales: High Wire Press, Meta Press, Ingenta.
• Sociedades, Organizaciones Cientificas y Agencias de Gobierno: American Physical Society, National Institutes of Health, NOAA.

Cada resultado de búsqueda de Google Académico representa un conjunto de trabajo académico. Ello puede incluir un artículo relacionado o más, o incluso múltiples versiones de un mismo artículo. Por ejemplo, una búsqueda puede constar de un grupo de artículos que incluyen el previo a la impresión, un artículo de una conferencia, de una revista y de una antología, todo ello relacionado con un único esfuerzo de investigación. Al agrupar estos artículos, podemos valorar con mayor precisión el efecto de la investigación y presentar mejor las distintas investigaciones efectuadas en un área determinada.

Por lo tanto, al buscar en Google Académico estamos buscando en todas estas mega-bases académicas a la vez. Además, integra y cruza la información de las diferentes bases, esto es lo que se nos muestra como “citado por”, “grupo de”, “artículos relacionados”, etc.

¿Qué otros datos presenta con los resultados de la búsqueda? ¿De que información disponemos en la pantalla?

A- Enlaces al resumen del artículo o, cuando sea posible, al artículo entero. Si escribimos el título del documento que buscamos entre comillas: "Historia de la locura en la época clásica". Google Académico buscará documentos con ese título, así como otros documentos en los que se mencione dicho título, de manera automática.

B- Identifica otros documentos que citan artículos del grupo

C- Busca documentación similar a los artículos incluidos en este grupo. Para cada resultado de una búsqueda en Google Académico, se determina automáticamente los artículos del índice de Google que guardan más relación con el mismo. Se mostrará una lista de estos artículos si haces clic en el enlace “Artículos relacionados” que veremos junto a muchos de los resultados. La lista de artículos relacionados se elabora principalmente teniendo en cuenta la similitud que estos guardan con el resultado original, pero también en función de la relevancia de cada documento. La posibilidad de disponer de una serie de libros y documentación relacionados con un tema suele ser de gran ayuda para familiarizarnos con él.

D- Busca información sobre esta investigación en Google.

E- Articulos recientes: nos permite encontrar investigaciones recientes sobre temas relacionados con nuestra búsqueda. Estos resultados se ordenan según factores adicionales que podrían ayudarnos a encontrar investigaciones de última hora más rápidamente.

F- [Citas]: son artículos que han sido mencionados en otros documentos académicos pero que no se encuentran en línea. Un gran número de documentos académicos todavía no está disponible en línea, así que, hasta que esos documentos no se puedan consultar en línea, las citas que se hagan de dichos documentos ayudarán a los investigadores a encontrar tanta información relevante como sea posible.

En la Web

¿Dónde busca?
En toda su base de datos, es decir, todas las páginas indexadas por Google. Esta base de datos es creada a partir de Webs añadidas a mano o por medio de su web crawler llamado Googlebot. Éste es, básicamente, un programa que visita una web, todos sus enlaces, los enlaces de los enlaces y así hasta el infinito. Para esto emplea varias técnicas como:

• Análisis contextuales (suele ser un primer filtro y es muy básico)
• Numero de veces que se visita la pagina desde google
• Solicitud de posicionamiento (orientado a empresas, esta muy controlado para uso fraudulentos, solo suele solo para admitirse para el nombre comercial o pseudónimos de la empresa). El posicionamiento en buscadores se ha convertido en los últimos tiempos en una de las herramientas más cotizadas por los webmasters. En particular, aparecer en las primeras posiciones en Google es algo indispensable si quieres generar tráfico hacia tu sitio web, ya que Google responde a casi el 60% de las búsquedas de Internet. Uun buen posicionamiento web requiere de un trabajo constante -generando contenidos, optimizando páginas web y buscando enlaces- cuyos resultados son a largo plazo.

¿Cómo busca?
Un buscador es un sistema que automáticamente explora la web y recoge el código de las diferentes páginas que visita en una base de datos consultable por sus usuarios.

Búsqueda básica: Para ingresar una consulta en Google, simplemente se introducen algunas palabras descriptivas y se presiona la tecla “enter” (o se hace clic en el botón de búsqueda en Google) para ver la lista de resultados relevantes.

Google usa sofisticadas técnicas de búsqueda de texto que encuentran páginas que son importantes y relevantes para su búsqueda. Por ejemplo, cuando Google analiza una página, comprueba el contenido de las páginas vinculadas con esa página. Google también prefiere las páginas en las que los términos buscados están cerca unos de otros.

Aunque hoy en día Google se ha convertido en sinónimo de buscador, la historia de los buscadores no empieza ni acaba con él. Los programas informáticos cuya misión principal es la de recuperar documentos siguiendo las instrucciones de un usuario han existido desde mediados del siglo pasado.

Los primeros buscadores encontraban los documentos que cumplían los requisitos que marcaba el usuario, sin hacer ningún esfuerzo por calcular la relevancia de éstos; el resultado de la consulta se devolvía ordenado de acuerdo con criterios básicos, por ejemplo, alfabética o cronológicamente. Si buscabas la palabra “sillas”, obtenías todos los documentos donde apareciera en algún momento la palabra “sillas”, sin que se aplicara ningún criterio para decidir qué documento era más relevante.

Este tipo de búsquedas, exigía que el usuario sea un usuario avanzado, es decir, con capacidad de proporcionar suficientes datos para recuperar el documento que desea obtener.

Progresivamente las opciones de consulta se sofisticaron, dividiendo la información en diferentes campos y permitiendo la combinación de búsquedas ya que, de otra manera, el volumen de documentos devueltos era abrumador, y lo que necesitaba el usuario podía estar tanto en primer como en último lugar.

Para asegurar la utilidad de estos sistemas, era casi imprescindible recurrir a operadores humanos, que evalúen y codifiquen previamente algunos aspectos clave de los documentos, como su tema, de acuerdo a códigos y listas controladas, para que los usuarios puedan encontrar respuesta a la pregunta más frecuente: “encuentra documentos sobre este tema”.

La intervención humana es el sistema que ofrece mejores resultados pero es costosa, y por eso los buscadores siempre se han centrado mejorar el software para hacerla innecesaria.

Estos otros sistemas, que aparecieron posteriormente, aseguran la relevancia de los resultados. La necesidad de sofisticación pasa del usuario al sistema, que debe interpretar búsquedas muy generales.

Básicamente, Google busca en cuatro fases:
• Calcula cuántos de los documentos de su base de datos cumplen con los criterios de búsqueda concreta
• Calcula los factores que miden la mayor o menor relevancia de los documentos
• Calcula los factores de popularidad (PageRank) para esos resultados, que acaba de determinar el orden en que devolverá los resultados
• Tiene en cuenta las búsquedas anteriores realizadas desde el ordenador en cuestión.

¿Con que criterio organiza los resultados?
Google organiza los resultados de la búsqueda de acuerdo a su relevancia, es decir, que los primeros documentos devueltos sean aquellos que probablemente buscaba el usuario, y que los documentos menos probables de satisfacer sus expectativas, es decir, el ruido, queden relegados a los últimos puestos (Google actualmente usa unos 100 factores para evaluar la relevancia de un resultado). Los primeros pasos en este sentido consistieron en otorgar mayor peso a los términos presentes en títulos, o que se repitieran frecuentemente en el texto, sistemas que Google continúa utilizando actualmente. Los sistemas de valoración de búsquedas y documentos se han ido haciendo cada vez más sofisticados, pero Google ha sido el primero de estos sistemas que ha alcanzado de lleno al público general.

Muchos de estos algoritmos son sistemas que hace tiempo que están implementados en otros buscadores: la importancia del título, el control de las repeticiones de una palabra, etc. Otros son sistemas propios, como el famosísimo PageRank: uso de la conectividad de la Web para calcular un grado de calidad de cada página, además, utiliza esta propia capacidad de conexión de los documentos webs para mejorar los resultados de búsqueda. Asume que el número de enlaces que una página proporciona tiene mucho que ver con la calidad de la misma. PageRank puede ser pensado como un modelo del comportamiento del usuario. Mezclando unos y otros, Google ha conseguido convertirse en uno de los buscadores que mejor sabe valorar la relevancia sobre una base de datos de documentos sin control humano normalizado previo.

¿Qué otros datos presenta con los resultados de la búsqueda? ¿De que información disponemos en la pantalla?

A. Barra de estadísticas
Proporciona una descripción de la búsqueda y le indica el número de resultados encontrados, así como el tiempo que llevó completar su búsqueda.

B. La primera línea del resultado es el título de la página web encontrada. A veces, en vez del título aparecerá una URL, lo que significa que la página no tiene título, o que Google no ha indexado el contenido completo de esa página. Aún así, sabemos que es un resultado pertinente porque otras páginas web que sí hemos indexado tienen vínculos con esta página. Si el texto asociado con estos vínculos coincide con los criterios de la búsqueda, es posible que devuelva esta página como resultado aún cuando no se ha indexado el texto completo.

C. Este texto es un resumen de la página devuelta con los términos de búsqueda resaltados. Estos fragmentos permiten ver el contexto en que los términos aparecen en la página, antes de hacer clic en el resultado.

D. Dirección en la web del resultado encontrado.

E. Tamaño del texto de la página web encontrada. Se omite para los sitios que todavía no se han indexado.

F. Al hacer clic en el vínculo almacenado en caché, verá el contenido de la página web tal como aparecía en el momento en que la indexamos. Si por algún motivo, el vínculo del sitio no muestra la página actual, todavía puede obtener la versión en caché y encontrar la información que necesita. Los términos de la búsqueda aparecen resaltados en la versión almacenada en caché.

G. Cuando selecciona el vínculo Páginas similares para un resultado en particular, Google busca automáticamente páginas en la web que estén relacionadas con este resultado.

AntoSweet

sábado, 13 de junio de 2009

¿Cómo buscar en Google Académico?

¿Cómo buscar en Google?