Informática y Tecnología: CÃ³mo controlar robots de los buscadores

¿No sería bueno poder dejar un poco de código en su página web para contar los rastreadores del motor de búsqueda de araña para que su sitio número uno? Por desgracia, un archivo robots.txt o etiquetas meta robots no haré eso, pero pueden ayudar a los rastreadores índice de su sitio
mejor y bloquear los no deseados.

En primer lugar una definición poco explicando:

Arañas de los motores de búsqueda o Crawlers - Un rastreador web (también conocido como la tela de araña) es un programa que explora la World Wide Web de forma metódica y automatizada. rastreadores Web se utiliza principalmente para crear una copia de todas las páginas visitadas para su posterior procesamiento por un motor de búsqueda, que el índice de páginas descargadas para proporcionar búsquedas rápidas.

Un rastreador web es un tipo de bot, o un agente de software. En general, comienza con una lista de URLs a visitar. Como visitas de estas URLs, identifica todos los hipervínculos en la página y los agrega a la lista de URLs a visitar, de forma recursiva navegar por la Web de acuerdo con un conjunto de políticas.

Robots.txt - La norma de exclusión robots o protocolo de robots.txt es una convención para prevenir buen comportamiento arañas web y otros robots web, el acceso a la totalidad o parte de un sitio web. La información que especifique los elementos que no deberían tener acceso se especifica en un archivo llamado robots.txt en el directorio de nivel superior de la página web.

El protocolo de robots.txt es meramente consultivo, y se basa en la cooperación de la robusteza de la tela, por lo que marca un espacio de su sitio fuera de los límites con robots.txt no garantiza la privacidad. Muchos administradores de sitios web han sido pillado tratando de usar los robots archivo para que las partes privadas de un sitio web invisible para el resto del mundo. Sin embargo, el archivo es necesariamente a disposición del público y es fácil de comprobar por cualquier persona con un navegador web.

Los patrones de robots.txt son emparejados por comparaciones subcadena simple, por lo que se debe tener cuidado para asegurarse de que los patrones se pongan en venta directorios tienen la última carácter '/' añadidas: de lo contrario todos los archivos con nombres que comienzan con la subcadena que coincide, en lugar de los de el directorio deseado.

Meta Tag - Meta tags son usados para proveer datos estructurados sobre los datos.

En la década de 2000, los motores de búsqueda se alejó de la dependencia de los meta-tags, ya que muchos sitios web utilizan palabras inadecuadas, o fueron relleno de palabras clave para obtener cualquier posible todo el tráfico.

Algunos motores de búsqueda, sin embargo, todavía tienen las etiquetas Meta en algunas consideraciones al entregar los resultados. En los últimos años, los motores de búsqueda se han vuelto más inteligentes, penalizar a los sitios web que están engañando (repitiendo el mismo varias veces la palabra clave para conseguir un impulso en el ranking de búsqueda). En vez de ir en las clasificaciones, estos sitios web pasará a la clasificación o, en algunos motores de búsqueda, se iniciará el motor de búsqueda completo.

Índice de un sitio - La acción de rastreo de su sitio y la recopilación de información.

patrones de concordancia directorios tienen la última carácter '/' añadidas: de lo contrario todos los archivos con nombres que comienzan con la subcadena que coincide, en lugar de sólo a los destinados en el directorio.

Meta Tag - Meta tags son usados para proveer datos estructurados sobre los datos.

Índice de un sitio - La acción de rastreo de su sitio y la recopilación de información.

¿Cómo puede el archivo robots.txt y metaetiquetas ayudarle?

En el robots.txt puedes decirle a los efectos nocivos 'web crawlers' para salir de su sitio web, solo, y dar consejos útiles a los que se va a rastrear su sitio. He aquí un ejemplo de cómo no permitir un rastreador web para buscar su sitio:

# Identifica la Wayback Machine
User-agent: ia_archiver
Disallow: /

ia_archiver es el nombre del rastreador de la Wayback Machine que usted puede haber oído hablar, y el / después de no permitir que dice ai_archiver no indexar ninguna de sus sitio. El # le permite escribir comentarios a ti mismo para que pueda hacer un seguimiento de lo que ha escrito.

ct de un sitio web invisible para el resto del mundo. Sin embargo, el archivo es necesariamente a disposición del público y es fácil de comprobar por cualquier persona con un navegador web.

Meta Tag - Meta tags son usados para proveer datos estructurados sobre los datos.

Índice de un sitio - La acción de rastreo de su sitio y la recopilación de información.

¿Cómo puede el archivo robots.txt y metaetiquetas ayudarle?

# Identifica la Wayback Machine
User-agent: ia_archiver
Disallow: /

Informática y Tecnología

Saturday, January 22, 2011

CÃ³mo controlar robots de los buscadores

No comments:

Post a Comment