Elementos que impiden a las arañas rastrear e indexar su página

En el artículo anterior explicamos que las arañas son como los mensajeros de los buscadores que rastrean las páginas de la red y entregan la información al índice del buscador. Hay varios elementos que pueden impedir a las  arañas el rastrear su página. Esto consecuentemente evitara que la página este indexada y por ello no aparecerá en los resultados que presentan los motores de búsqueda.

  • URL dinámicos: pueden resultar problemáticos para las arañas. Puede reconocer un URL dinámico por los símbolos que incluye (por ejemplo:? % = & y mas). Son muy cómodos para los usuarios por que les da la opción de buscar información muy específica (como seria: busco departamento de 3 recamaras en Cuernavaca en precio menor de 2 millones), pero no para las arañas. Si tiene un sitio dinámico le sugerimos consultar con especialista en posicionamiento web  para anexar más alternativas que ayuden a que su sitio sea indexado.
  • Paginas que incluyen más de 100 enlaces para direcciones dentro del mismo sitio, esto puede causar que la araña ni siquiera revise la página ya que no pasará por todos los enlaces. Si está tratando de generar mapa del sitio, hay maneras más útiles.
  • Paginas ubicadas a mas de tres clics de la página principal tienen muy poca probabilidad de ser visitadas por la araña. Hay que planear la estructura del sitio de manera que no este con muchas capas de profundidad.
  • Paginas que requieren “Session ID” o soporten únicamente a través de cookies, no son indexadas por las arañas.
  • Páginas cual incluyen marcos (frames). En este caso la araña indexa cada parte por separado (la pagina original y lo que esta adentro del marco).
  • Paginas que se abren solo después que el usuario llena sus datos y hace clic sobre otro botón. La araña no sabe escribir, así que no las indexa.
  • Menús de Java – todo lo que es interactivo no es aplicable para las arañas.

Hay que tomar en cuenta que no en cualquier caso queremos que las arañas indexen la información. Por ejemplo, si el sitio ofrece información con un cargo de pago, no vamos a querer que la información vaya hacer revelada en los resultados de los buscadores – gratuitamente. Los documentos que son bloqueados intencionalmente, en la mayoría de los casos no están indexados. Eso se puede hacer por medio de la etiqueta robot o por medio de archivo robots.txt