miércoles, 23 de abril de 2014

Facebook Tiene Problemas con la indexación en Google

Muchas Veces él expresado Que No me PARECE nada claro la forma en La Que los buscadores de como  Google  o  Bing  Piden una del los  webmasters  Que le indiquen si quieren Que se indexé o ningún Contenido do. Me PARECE Que do Politica de Indexo Todo y si no quieren Algo Que Digan lo de es abusiva Poco ONU, especialmente teniendo en Cuenta Que Si Alguien QUIERE  scrappear  sos Resultados o  indexarles A por ellos  no les gusta nada. De Hecho, es bien Conocido el  Problema Que Tuvo Google Con Los Medios de Comunicación en línea  o Las  Guerras Legales Con Los huérfanos Libros  CUANDO quisieron indexar Todos Los libros de las Bibliotecas americanas escaneándolos.

Volviendo al tema de de la indexación de contenidos y la forma de indicarle Que No QUIERES Que algoritmo Esté available, UN web webmaster Que Quiera Que Contenido de do Esté indexado en  Google  debe utilizar cuatrista Formas Distintas párr notificárselo al buscador, hijo Que:
Robots.txtPara decirle a la araña del buscador Que Por Favor no indexé el Contenido de los Archivos Que se encuentran en determinados Directorios. ESTO no protegido de Que indexada mar la URL o el Título si s encontrado porción Otros Medios
Etiqueta HTML Meta NOINDEXEs Una  Etiqueta en Código HTML  párr decirle una cola Google, SI UN archivo ha Sido indexado no PORQUE he aquí haiá encontrado la araña del buscador chino PORQUE SE ha Seguido sin enlace, Que please no indexé do Contenido, y tampoco Las URLs o Títulos. 
cabecera HTTP X-Robots-Tag "Noindex"Para los Archivos Que ningún hijo HTML - y Donde no Se Puede PONER Una Etiqueta HTML Meta - entonces debe el servicio Servidor Web el Que envie  Una cabecera párr decirle Que ESE document ningún servicio debe indexado  nada párr. Es Decir, ni do URL, ni do título, nada ni. 
Herramientas del WebmasterPara pedir Que Una Vez Que Esté indexado sin documento en la la Base de Datos - y en la caché - desaparezca, Pues Hasta Que No Se Elimine, POR Mucho Que se Cambie la configuracion seguira estando disponible Disponible el Contenido.
ESTO Y, sin nada es Fácil de entendre párrafo Nadie, Como tampoco lo es el párrafo Grandes Sitios del como  Facebook  Que Se VEN Afectados porciones malas configurations. Ademas, ESTOS cuatrista methods Tienen Problemas de la base de Implementación Que Paso a contaros here:
Robotx.txtEs Un archivo Que le dados a la araña Que No SE QUIERE Tener indexado. Puede del ESTO porción servicio Motivos de SEO, PRIVACIDAD O direction seguridad. Sin embargo, le obliga al webmaster un  contradictorio suspensiones Descubrir "secretas" de la web a atacantes  INRI Más y para,  el buscador indexa los robots.txt  poniendo available ESA Información a atacantes. 
Etiqueta HTML Meta NOINDEXSOLO no está available párrafo Archivos HTML de pisos, Asi Que SÓLO SE Puede utilizar En Una Porción MUY PEQUEÑA de los Documentos de Web site de la ONU. QUEDAN FUERA del los Archivos Gráficos, Documentos ofimáticos, etcétera, Lo Que Hace Que this Etiqueta sí Poco uso Bastante. 
- Cabecera HTTP X-Robots-Tag "noindex"Obligación un sin Tener Nivel de Administración del Servidor Web Que habitualmente no sí Tienen en los Servicios de Hosting. Solo Aquellos Que Tengan Acceso a la configuracion del Servidor web podran utilizarlo. 
Herramientas del WebmasterObligación a Tener Una Cuenta de Servicio de Google, un reclamar de El Sitio de como tuyo ante Google, y despues sí podra pedir el retiro de URL Una. Ademas no es Inmediato y heno Que Esperar Tiempo un.
ESTOS Todos con handicaps de FUNCIÓNamiento a la hora de gestionar la indexación o no de los Contenidos De Una web, ES Hasta la normalidad Que los Grandes Tengan Problemas. Podemos Y del lo v. here en el Caso de  Facebook . Vamos punto punto porción.

El robots.txt de Facebook

Si analizamos el Fichero en Cuestión Veremos Que  Facebook  HACE Esfuerzo ONU "grande" en  la UB Fichero robots.txt  párr conseguir servi indexado de COMO EL QUIERE Por los buscadores. Es Un archivo grande, Estructurado porciones  bots , ADEMÁS Y Que marca muy bien lo Que No QUIERE Que le indexen.

Figura 1: Sección de robots.txt de Facebook párrafo el bot de Google

Por Desgracia, ese Fichero no está SIENDO indexado, y podria CUALQUIERA ENCONTRAR QUÉ Archivos  backend  PHP  hijo los que mas le preocupan a  Facebook  Buscando Dentro de el - un Través de  Google  o revisándolo manualmente -.

Figura 2: El Fichero robotx.txt indexado en Google

Como podeis ver, Hay Un  confirmemail.php  Que Podria Ser Útil REVISAR una versión si no está o no indexado en la la Base de Datos del buscador, Que ASI Haciendo Un poco de  hackeo buscadores estafadores , preguntamos porciones  URLs  almacenadas de  confirmemail.php  en Facebook .

Figura 3: 4.750 URLs Indexadas de confirmemail.php

Como Se Puede Ver, heno  4.750  Registros dE  URLs  De  confirmemail.php  Indexadas estafadores informacion de Correos Electrónicos de Usuarios Que Se Usan En El TABLE FUNCIONES DIVERSAS. Si Buscamos porción Correos de  Gmail.com , salen cientos de UNOS, Con las Direcciones de Correo Indexadas.

Figura 4: indexados Correos de Gmail

En ESE Caso, COMO PODEIS APRECIAR,  Google  no está indexando el Contenido de la página ya la venta Que el Texto de la page in la Descripción, Y además lo  cachea , ASI Que  hay no está Funcionando bien la configuracion del Bloqueo  de  Confirmemail.php  en el Fichero  robots.txt

Meta tag HTML noindex, NoIndexImages, NOARCHIVE

Miramos de Si el Contenido del Fichero  confirmemail.php  Que devuelve el Servidor estafadores uña de AES  URLs  Indexadas, Podremos ver Que no sí no está Haciendo USO de la  Meta tag  noindexNoArhive  - Para Qué No Se GUARDE en caché - o  NoIndexImages  - Para Qué las Imágenes de la page tampoco queden Indexadas -.

Figura 5: La page confirmemail.php ningún Hace BSG de ETIQUETAS Meta párrafo Evitar indexación y almacenamiento en caché

Mi impresión personal es Que it sencilla desconocimiento de TODAS las Formas de Hablar Con  Google  ELEGIR párr Una Mejor indexación y los Problemas de Privacidad Que ESTO Puede del conllevar, Pero Puede Ser Que Exista algun Motivo Que Yo desconozco.

Cabecera HTTP X-Robots-Tag "noindex"

Este Problemas de indexación de Información se Extiende also a las  direcciones URL  de las FOTOGRAFÍAS o en documentos ofimáticos. Si Buscamos porción Cosas Que aparecen en los Servidores de la  CDN  Que utiliza  Facebook , apareceran  URLs  Diversas, TODAS Ellas Filtradas Por El Fichero  robots.txt .

Figura 6: URL De La CDN de Google Indexadas, Pero Filtradas porción robots.txt

Esto Es Algo Que COMO SE Puede ver,  Google  Detecta ya de como extraño, y saca la ONU Anuncio Con las  Herramientas del Webmaster  párr Indicar Que Si Se DESEA Borrar this in English Contenido, el unico camino es sacarse la Cuenta de  Google , reclamar el site de como tuyo, y pedir de el Borrado De TODAS ESA  URLs .

El Que aparezcan TODAS AEE  URLs  indica Que  Facebook  no no está Haciendo USO De Las ETIQUETAS  X-Robots-Tag "noindex"  en el Envío de El los Contenidos, Que ASI  Google  las introducen en los Resultados y listo.

Herramientas del Webmaster: El Parámetro n_m

Viendo Que  Facebook  No Se lleva muy bien acondicionado las options indexación de Google , mis compañeros de  Once Caminos  Que Forman  "El Equipo de Investigación" sí Dieron Cuenta de Que es la web de  Facebook  en sí utiliza sin Parámetro de Nombre n_m  Que lleva de como valor la Dirección de  e_mail  del usuario, y Que se EE.UU. en Direcciones  URL  Que  NO  ESTAN Filtradas porción  robots.txt  y no Hacen USO tampoco de la Meta Tag HTML NOINDEX  o   ni del Encabezado  HTTP X-Robots-Tag "noindex" , porción Lo Que aparecen los muchas Direcciones de Correo en la caché del buscador.

Figura 7: Direcciones de estafa el Parámetro n_m Indexadas en Google

Como tampoco Tienen Ninguna Protección Para La estafa caché las ETIQUETAS  HTML  o encabezados  HTTP  NOARCHIVE   aparecen Also in ella, he aquí Por Que es Fácil acceder a este mucha de Información de Lo Que Hacen los Usuarios Rastreando ESE Parámetro.

Figura 8: Direcciones de Correo en la caché de Google en Lista de parámetros n_m 

Si  Facebook  QUIERE limpiarlo de   Google , no le Queda Otra Que half board en el Servicio de  Herramientas del Webmaster  y Solicitar do Borrado

Conclusiones

La Existencia de 4 Puntos distintos de configuracion de las options indexación de la ONU buscador de como  Google  pueden liar un  Webmasters  tan Especializados de como Facebook , llevándoles un Tener Auténticos Problemas de Privacidad.

Supuesto Por, also Cuenta Que el Envío de  Datos · sentidos Por La URL es Algo Que COMO Dije "ser podia tu perdición"  Y Que no deja en buen Lugar a  Facebook , Que espero tomo buena nota de ESTO y consiga PONER Un poco de Orden en Lo Que deja Que se indexé o no de EL.

No hay comentarios:

Publicar un comentario