Cómo buscar información en la web profunda



En tiempos en los que el periodismo de datos contribuye a mejorar la calidad de los contenidos periodísticos, la captura de información es el primer eslabón de una sucesión de pasos entre los que se incluyen el procesamiento, la depuración, la contextualización y la visualización.

No solamente es suficiente “ver” datos a través de una pantalla, sino tener la capacidad para capturarlos, lo cual se convierte en pieza clave de esta estrategia.

Hay muchas formas de obtener datos: el rastreo de la web, conocido como searching, es una de ellas y probablemente la más utilizada. Sin embargo, hay una importante cantidad de información que puede ser recuperada por los mecanismos comunes de búsqueda. El espacio de la Red donde se alojan esos contenidos es conocido como “web profunda” o deep web, que es donde se incluye información que no es indexada por los motores de búsqueda como Google, Bing, etc. Por el contrario, en la “web superficial” es donde podemos encontrar los resultados más comunes que devuelven los buscadores, como páginas de sitios comerciales o aquellos con alto tráfico.

Vale mencionar que también existe otra zona definida por algunos autores como la “Internet oscura”, impenetrable por su naturaleza, como los servidores protegidos por diferentes razones (seguridad nacional o militar), cuyo contenido queda aislado de nuestro campo de búsqueda. Sin embargo, la web profunda es más accesible de lo que imaginamos.

En ella podemos encontrar documentos que no han sido almacenados bajo estructura HTML, como archivos para abrir o descargar en diferentes formatos: PDF, Excel, PPT (Power Point), incluso Flash y las extensiones que utiliza Google Earth. Pero para esto se requiere paciencia y un elemento clave: sistematicidad.

Tutorial | Aprenda a usar la Búsqueda Avanzada de Google

Dominar las búsquedas utilizando las opciones avanzadas es lo que marca la diferencia entre un
resultado malo o mediocre y uno bueno o excelente.

Ubique en la página principal de Google “Búsqueda Avanzada” o acceda mediante su
acceso directo: http://www.google.com/advanced_search.

En la parte superior del formulario hay diferentes campos que representan los operadores booleanos

1- Primer Campo: Allí se deben colocar palabras sin operadores, ya que este campo
representa al operador AND, o lo que es igual, el signo +. Por lo tanto, todas las
palabras que incluya en este campo estarán incluidas en las páginas que devuelva el
buscador. Debe quedar en claro que en este cuadro de búsqueda se colocan palabras
sueltas. Ejemplo: Presupuesto municipal Rosario.

2- Segundo Campo: Representa la frase exacta, por lo tanto, no debe colocar allí
comillas, ya que este campo funciona como el operador comillas. Ejemplo: Presupuesto municipal. Utilizar este cuadro actúa como un modo de restringir la búsqueda; es una de las opciones de filtrado más seguras.

3- Tercer Campo: Si no tiene muchos datos relacionados con la información que busca,
puede escribir en este cuadro palabras sueltas o sinónimos, ya que opera como un selector
de algunas palabras y no todas. Por ejemplo, si coloca en el Primer Campo la palabra
presupuesto, el buscador sólo le devolverá los resultados que las contengan. Pero tal vez
el documento que usted busca no contiene la palabra corrupción, sino términos equivalentes
o similares como: gasto, monto, etc. Por lo tanto, este campo añade la posibilidad de
aumentar la cantidad de resultados.

4- Cuarto Campo: Generalmente páginas comerciales interfieren en la meta de obtener
pocos pero buenos resultados. Por lo tanto, este cuadro permite excluir términos
que usted no desea estén incluidos en sus resultados. Por ejemplo, si está buscando
información sobre exportaciones de café y una primera búsqueda le devuelve muchos
resultados sobre exportaciones de carne, colocando la palabra carne en esta ventana, la
misma será excluida de los resultados.

Inmediatamente después de estas cuatro ventanas, dentro de la búsqueda avanzada, encontrará otros cuadros (o campos) de selección que permiten un filtrado más preciso. Veamos:

Campo Idioma: Puede ser que requiera información que se encuentre en otro país, por ejemplo, Brasil, por lo que será necesario ajustar el idioma al portugués.

Campo Región: Permite remitir la búsqueda a un determinado país. Por ejemplo, suponiendo que usted intuye que cierto documento fue generado en la embajada de España en su país, probablemente en este país haya un correlato digital del mismo. Vea el ejemplo en la captura de pantalla.

Campo Formato: Es quizá, uno de los campos de selección más importantes. Los documentos relevantes, generalmente información gubernamental, suelen estar en PDF, acrónimo del inglés Portable Document Format, desarrollado por la empresa Adobe Systems. Pliegos de licitación, fallos judiciales y otros documentos públicos, frecuentemente se suben a la Web en PDF. Seleccione esa opción como una manera de restringir entre los resultados de la búsqueda aquellos sitios comerciales o de fuentes poco confiables que no suelen utilizar este formato. Si busca estadísticas, es más probable que el documento se encuentre en Excel, aunque no necesariamente, ya que muchos organismos y gobiernos, con la excusa de proteger sus documentos, convierten los archivos Excel a formato fotográfico, con lo cual se imposibilita el traslado de la información a una Hoja de Cálculo. Gobiernos que utilicen formatos fotográficos para almacenar documentos contribuyen a que sus sitios operen de manera más lenta y dificultan el proceso de acceso a la información pública que debería estar garantizado por una ley. También puede elegir otras opciones, como el formato PPT (PowerPoint), si está buscando información académica, presentaciones en congresos, etc.

Campo Fecha: Resulta importante que ajuste la fecha, ya que permite acotar el plazo de manera bastante precisa, aunque no exacta. Si decide buscar dejando la opción “en cualquier momento”, probablemente los resultados serán muchos. Vaya ajustando este parámetro gradualmente. Suponga que necesita un documento del 2009. Comience seleccionando la opción “durante la ultima semana”, y si no encontró lo que buscaba, vaya ampliando la selección, a “en el último mes” hasta finalmente “en el ultimo año”. La opción “en las últimas 24 horas” es bastante restrictiva cuando previamente se seleccionó un formato, por lo que podría excluir resultados valiosos. En la captura de pantalla anterior, se añadió la restricción utilizando este campo, solicitando a Google que sólo devuelva los
resultados en PDF, indexados durante el último mes.

Campo Dominios: Hace posible ubicar un documento, dato o información dentro de un sitio. Es como si Google “se metiera” dentro de un sitio web. Por ejemplo, si se busca información generada por la Municipalidad de Rosario, una buena manera de restringir la cantidad de enlaces y hacer su búsqueda más efectiva es escribiendo en ese cuadro la URL de dicha oficina, pero sin las 3 w ni el punto siguiente. Es decir, rosario.gov.ar.
Loading...
Loading...

Fuente: Herramientas digitales para periodistas, de Sandra Crucianelli

Comentarios