Grupo Fivasa: ¿Cómo se hace... un crawler?

Un crawler, también llamado robot o araña de la Web (spider), es un programa diseñado para explorar de manera automática la Web, descargando las páginas que visita.

Para ello, comienza a partir de un subconjunto de páginas dadas como semilla (seed), y que será el conjunto de páginas que deberá visitar el crawler.

De estas páginas, el crawler recupera los enlaces que contienen a otras páginas, añadiéndolos al conjunto de páginas por visitar (crawl frontier) para recorrerlas en su proceso.

Este proceso será indefinido (ad nauseum, ad infinitum) o hasta una condición de parada, dependiendo del algoritmo implementado.

La forma de construir un sencillo crawler es seguir el algoritmo básico descrito en su definición, y refinarlo con las necesidades particulares. A continuación se muestra paso a paso cómo construir un sencillo crawler en C#:

Paso 1: Referencias y globales

Lo primero será añadir las librerías a utilizar, que vienen por defecto referenciadas en el Visual Studio:


using System.IO;
using System.Net;

Y un par de variables globales a la clase. En primer lugar una tabla hash que nos permita saber si una Url a visitar ha sido previamente visitada:

Hashtable visitedUrls = new Hashtable();

Y por otro lado un dataset que nos permita almacenar las Urls visitadas con el Html recuperado:

DataSet mUrls = new DataSet();

Podríamos haber creado un dataset tipado o crearle manualmente la tabla y columnas, que es por lo que se ha optado ya que no es el objetivo del artículo:


mUrls.Tables.Add("TABLE_URLS");
mUrls.Tables["TABLE_URLS"].Columns.Add("COLUMN_URL");
mUrls.Tables["TABLE_URLS"].Columns.Add("COLUMN_HTML");

Paso 2: Obtener Html

A continuación nos creamos un método para obtener el Html a partir de una Url:


public String GetHtml(String url)
{
    try
    {
        String sHtml = String.Empty;
        HttpWebRequest req = 
            (HttpWebRequest)WebRequest.Create(url);
        HttpWebResponse resp = 
            (HttpWebResponse)req.GetResponse();
        if (resp.ContentType.ToLower().IndexOf("text/html") 
            > -1)
        {
            Stream istrm = resp.GetResponseStream();
            StreamReader rdr = new StreamReader(istrm);

            sHtml = rdr.ReadToEnd();
        }
        resp.Close();
        return sHtml;
    }
    catch (Exception ex)
    {
        return "ERROR: " + ex.ToString();
    }
}

Es muy importante que notéis que estamos únicamente obteniendo páginas Html (

if (resp.ContentType.ToLower().IndexOf("text/html") > -1)

) Si deseásemos obtener cualquier otro tipo de página (pe. un Kml de Google Maps, una imagen o un pdf), deberíamos ver qué tipo Mime nos devuelve (pe. desde un navegador, viendo código fuente), y ponerlo aquí.

Paso 3: Obtener enlaces

Ya tenemos cómo obtener el Html de una página, ahora debemos obtener los enlaces que contiene. Para ello tenemos dos opciones, nos podemos construir una expresión regular y aplicarla al código, o podemos utilizar las librerías Microsoft.mshtml para tratamiento del html. A continuación se presentan ambos métodos:

Método 1: Expresión regular

Añadiremos una referencia a la librería de manejo de expresiones regulares que utilizaremos para poder obtener las urls contenidas en los elementos a href:

using System.Text.RegularExpressions;

Nos creamos una expresión regular que empareje con la definición de la etiqueta href de Html:


private Regex hrefRegex = new Regex
    ("href\\s*=\\s*(?:(?:\\\"(?[^\\\"]*)\\\")|(?[^\\s]* ))");

Y un método para obtener las Urls y devolverlas al flujo principal del crawler:


public String[] GetLinks(String html, System.Uri baseUri)
{
    //baseUri es necesario ya que se obtiene del href la ruta 
    //del enlace, que puede ser absoluta o relativa
    MatchCollection hrefmatches = hrefRegex.Matches(html);
    String[] sLinks = new String[hrefmatches.Count];
    Int32 i = 0;

    foreach (Match match in hrefmatches)
    {
        string newURL = match.Groups["url"].Value;

        if (baseUri != null)
        {
            Uri newUri = new Uri(baseUri, newURL);
            sLinks[i] = 
                new String(newUri.ToString().ToCharArray());
        }
        else
            sLinks[i] = new String(newURL.ToCharArray());
        i++;
    }
    return sLinks;
}

Método 2: Microsoft.mshtml

En primer lugar añadiremos la referencia a la librería:

using mshtml;

Y a continuación, y con el mismo interfaz anterior, construimos el método para obtener las urls:


public static String[] GetLinks(String html, 
     System.Uri baseUri)
{
    //baseUri no es necesario ya que se nos devuelven las 
    //rutas absolutas de los enlaces
    String[] Links = null;
    html = html.ToLower();

    IHTMLDocument2 oDoc = GetHtmlDoc(html);

    Int32 iNLinks = oDoc.links.length;
    Links = new String[iNLinks];

    Int32 i = 0;
    foreach (HTMLAnchorElement oAnchor in oDoc.links)
        Links[i++] = oAnchor.href;

    return Links;
}

Paso 4: Almacenar Urls y Html

Aquí creamos un método auxiliar que nos permita almacenar el Html recuperado de la Url visitada actualmente. Hemos optado por almacenarlo en un DataSet, pero se podría almacenar directamente a BBDD o cualquier cosa que necesitemos:


private void AddUrlToDataSet(String url, String html)
{
    url = url.ToLower().Trim();
    html = html.ToLower().Trim();
    if ((mUrls.Tables[TABLE_URLS].Select("URL='" + 
          url + "'").Length == 0))
    {
        DataRow oRow = mUrls.Tables[TABLE_URLS].NewRow();
        oRow[COLUMN_URL] = url;
        oRow[COLUMN_HTML] = html;
        mUrls.Tables[TABLE_URLS].Rows.Add(oRow);
    }
}

Paso 5: Algoritmo de Crawling

Una vez tenemos los métodos necesarios, podemos escribir el algoritmo principal del crawler. Aquí vamos a mostrar un algoritmo sencillo que a partir de una Url inicial (semilla o seed), retornaría todas las páginas del dominio de la Url dada y hasta un nivel máximo de profundidad proporcionado como argumento.


private void Crawl(String baseUrl, String currentUrl, 
     Int32 iCurrentDepth, Int32 iMaxDepth)
{
    Uri uriBase = new Uri(baseUrl);

    if (iCurrentDepth <= iMaxDepth)
    {
        if (!visitedUrls.ContainsKey(currentUrl))
        {
            visitedUrls.Add(currentUrl, 1);

            String shtml = String.Empty;
            Uri uriCurrent = new Uri(currentUrl);

            if ((uriBase.Host == uriCurrent.Host) && 
                (currentUrl.StartsWith(baseUrl)))
            {
                shtml = GetHtml(currentUrl);
                if (shtml != String.Empty)
                    AddUrlToDataSet(currentUrl, 
                         shtml.ToLower());
            }
            if (shtml != String.Empty)
            {
                String[] sLinks = HtmlMngr.GetLinks(shtml);
                for (Int32 i = 0; i < sLinks.Length; i++)
                {
                    if (sLinks[i] != null)
                        Crawl(baseUrl, sLinks[i], urlClass, 
                           iCurrentDepth + 1);
                }
            }
        }
    }
}

Paso 6: Consideraciones finales

La construcción de un crawler es sencilla, pero su uso intensivo y de manera eficiente requiere tener en consideración una serie de retos y cuestiones claves que se expondrán en detalle en otro artículo, pero principalmente se debería hacer especial énfasis en el uso ético y responsable del mismo, siguiendo las políticas de privacidad dictaminadas en los servidores para cada una de las páginas contenidas y que posiblemente visitaremos, y que vienen definidas en el fichero robots

En cualquier caso deseamos que el ejemplo aquí expuesto sea de su interés y utilidad, y haga un uso responsable del mismo.

martes, 4 de agosto de 2009

¿Cómo se hace... un crawler?

No hay comentarios:

Publicar un comentario

Clinica Fivasa

Grupo Fivasa

Etiquetas

Archivo del blog

Colaboradores

Seguidores

Lista de Blogs de interés

Adoos