Google quiere abrir rastreadores web

Google quiere abrir rastreadores web

En un esfuerzo por abogar por un estándar web oficial para rastreadores, Google ha hecho su analizador sintáctico de código abierto para robots.txt, con la esperanza de que los desarrolladores web pronto lo hagan. escuchar acerca de una norma sobre la operación en línea de rastreadores. La biblioteca de C ++ es responsable de alimentar su propio bot web, Googlebot, que se utiliza para indexar sitios web de acuerdo con el Protocolo de Exclusión de Robots (REP). A través de REP, los propietarios de sitios web pueden dictar el comportamiento de los rastreadores que visitan sus sitios para indexarlos. Con la ayuda de un archivo de texto llamado robots.txt, los rastreadores web, como Googlebot, saben qué recursos del sitio web se pueden visitar y qué recursos se pueden indexar. Las reglas para REP fueron escritas por el creador del primer motor de búsqueda, Martijn Koster, hace 25 años. Desde entonces, REP ha sido ampliamente adoptado por los editores web, pero nunca se ha convertido en un estándar oficial de Internet. Google está buscando cambiar esto y espera hacerlo asegurándose de que el analizador utilizado para decodificar su archivo robots.txt sea de código abierto.

REPRESENTANTE

Henner Zeller, Lizzi Harvey y Gary Illyes explicaron en una publicación de blog que el hecho de que REP no fuera un estándar oficial de Internet había creado confusión en cuanto a cómo implementarlo entre los desarrolladores web. "El REP nunca se ha transformado en un estándar oficial de Internet, lo que significa que los desarrolladores han interpretado el protocolo de manera algo diferente a lo largo de los años. Y desde su inicio, el REP no se ha actualizado para cubrir los casos críticos de hoy. Este es un problema difícil para los propietarios de sitios web porque el ambiguo estándar de facto hace que sea difícil escribir las reglas correctamente. " Para hacer que las implementaciones de REP sean más consistentes en la Web, Google ahora se esfuerza por hacer de REP un estándar del grupo de trabajo de ingeniería de Internet y el gigante de la búsqueda incluso ha publicado un borrador de propuesta dirigido a Ayúdale en sus esfuerzos. El borrador propuesto sugiere extender el archivo robots.txt de HTTP a cualquier protocolo de reenvío basado en URI (incluidos FTP y CoAP), lo que obliga a los desarrolladores a escanear al menos 500 kibytes. un archivo robots.txt y establecer un nuevo tiempo máximo de almacenamiento en caché de 24 horas. "RFC significa Solicitud de comentarios, y lo creemos sinceramente: descargamos el proyecto en IETF para obtener comentarios de desarrolladores preocupados por los conceptos básicos de Internet. Mientras trabajamos para darles a los creadores web los controles que necesitan para decirnos cuánta información quieren poner a disposición de Googlebot y, por extensión, es probable que esté en el motor de búsqueda, debemos asegurarnos de que todo es correcto ", agregaron Zeller, Harvey e Illyes. A través del registro