SEGURIDAD INFORMATICA

Facebook Tiene Problemas con la indexación en Google

Muchas Veces él expresado Que No me PARECE nada claro la forma en La Que los buscadores de como Google o Bing Piden una del los webmasters Que le indiquen si quieren Que se indexé o ningún Contenido do. Me PARECE Que do Politica de Indexo Todo y si no quieren Algo Que Digan lo de es abusiva Poco ONU, especialmente teniendo en Cuenta Que Si Alguien QUIERE scrappear sos Resultados o indexarles A por ellos no les gusta nada. De Hecho, es bien Conocido el Problema Que Tuvo Google Con Los Medios de Comunicación en línea o Las Guerras Legales Con Los huérfanos Libros CUANDO quisieron indexar Todos Los libros de las Bibliotecas americanas escaneándolos.

Volviendo al tema de de la indexación de contenidos y la forma de indicarle Que No QUIERES Que algoritmo Esté available, UN web webmaster Que Quiera Que Contenido de do Esté indexado en Google debe utilizar cuatrista Formas Distintas párr notificárselo al buscador, hijo Que:

- Robots.txt : Para decirle a la araña del buscador Que Por Favor no indexé el Contenido de los Archivos Que se encuentran en determinados Directorios. ESTO no protegido de Que indexada mar la URL o el Título si s encontrado porción Otros Medios .

- Etiqueta HTML Meta NOINDEX : Es Una Etiqueta en Código HTML párr decirle una cola Google, SI UN archivo ha Sido indexado no PORQUE he aquí haiá encontrado la araña del buscador chino PORQUE SE ha Seguido sin enlace, Que please no indexé do Contenido, y tampoco Las URLs o Títulos.

- cabecera HTTP X-Robots-Tag "Noindex" : Para los Archivos Que ningún hijo HTML - y Donde no Se Puede PONER Una Etiqueta HTML Meta - entonces debe el servicio Servidor Web el Que envie Una cabecera párr decirle Que ESE document ningún servicio debe indexado nada párr. Es Decir, ni do URL, ni do título, nada ni.

- Herramientas del Webmaster : Para pedir Que Una Vez Que Esté indexado sin documento en la la Base de Datos - y en la caché - desaparezca, Pues Hasta Que No Se Elimine, POR Mucho Que se Cambie la configuracion seguira estando disponible Disponible el Contenido.

ESTO Y, sin nada es Fácil de entendre párrafo Nadie, Como tampoco lo es el párrafo Grandes Sitios del como Facebook Que Se VEN Afectados porciones malas configurations. Ademas, ESTOS cuatrista methods Tienen Problemas de la base de Implementación Que Paso a contaros here:

- Robotx.txt : Es Un archivo Que le dados a la araña Que No SE QUIERE Tener indexado. Puede del ESTO porción servicio Motivos de SEO, PRIVACIDAD O direction seguridad. Sin embargo, le obliga al webmaster un contradictorio suspensiones Descubrir "secretas" de la web a atacantes INRI Más y para, el buscador indexa los robots.txt poniendo available ESA Información a atacantes.

- Etiqueta HTML Meta NOINDEX : SOLO no está available párrafo Archivos HTML de pisos, Asi Que SÓLO SE Puede utilizar En Una Porción MUY PEQUEÑA de los Documentos de Web site de la ONU. QUEDAN FUERA del los Archivos Gráficos, Documentos ofimáticos, etcétera, Lo Que Hace Que this Etiqueta sí Poco uso Bastante.

- Cabecera HTTP X-Robots-Tag "noindex" : Obligación un sin Tener Nivel de Administración del Servidor Web Que habitualmente no sí Tienen en los Servicios de Hosting. Solo Aquellos Que Tengan Acceso a la configuracion del Servidor web podran utilizarlo.

- Herramientas del Webmaster : Obligación a Tener Una Cuenta de Servicio de Google, un reclamar de El Sitio de como tuyo ante Google, y despues sí podra pedir el retiro de URL Una. Ademas no es Inmediato y heno Que Esperar Tiempo un.

ESTOS Todos con handicaps de FUNCIÓNamiento a la hora de gestionar la indexación o no de los Contenidos De Una web, ES Hasta la normalidad Que los Grandes Tengan Problemas. Podemos Y del lo v. here en el Caso de Facebook . Vamos punto punto porción.

El robots.txt de Facebook

Si analizamos el Fichero en Cuestión Veremos Que Facebook HACE Esfuerzo ONU "grande" en la UB Fichero robots.txt párr conseguir servi indexado de COMO EL QUIERE Por los buscadores. Es Un archivo grande, Estructurado porciones bots , ADEMÁS Y Que marca muy bien lo Que No QUIERE Que le indexen.

Figura 1: Sección de robots.txt de Facebook párrafo el bot de Google

Por Desgracia, ese Fichero no está SIENDO indexado, y podria CUALQUIERA ENCONTRAR QUÉ Archivos backend PHP hijo los que mas le preocupan a Facebook Buscando Dentro de el - un Través de Google o revisándolo manualmente -.

Figura 2: El Fichero robotx.txt indexado en Google

Como podeis ver, Hay Un confirmemail.php Que Podria Ser Útil REVISAR una versión si no está o no indexado en la la Base de Datos del buscador, Que ASI Haciendo Un poco de hackeo buscadores estafadores , preguntamos porciones URLs almacenadas de confirmemail.php en Facebook .

Figura 3: 4.750 URLs Indexadas de confirmemail.php

Como Se Puede Ver, heno 4.750 Registros dE URLs De confirmemail.php Indexadas estafadores informacion de Correos Electrónicos de Usuarios Que Se Usan En El TABLE FUNCIONES DIVERSAS. Si Buscamos porción Correos de Gmail.com , salen cientos de UNOS, Con las Direcciones de Correo Indexadas.

Figura 4: indexados Correos de Gmail

En ESE Caso, COMO PODEIS APRECIAR, Google no está indexando el Contenido de la página ya la venta Que el Texto de la page in la Descripción, Y además lo cachea , ASI Que hay no está Funcionando bien la configuracion del Bloqueo de Confirmemail.php en el Fichero robots.txt .

Meta tag HTML noindex, NoIndexImages, NOARCHIVE

Miramos de Si el Contenido del Fichero confirmemail.php Que devuelve el Servidor estafadores uña de AES URLs Indexadas, Podremos ver Que no sí no está Haciendo USO de la Meta tag noindex , NoArhive - Para Qué No Se GUARDE en caché - o NoIndexImages - Para Qué las Imágenes de la page tampoco queden Indexadas -.

Figura 5: La page confirmemail.php ningún Hace BSG de ETIQUETAS Meta párrafo Evitar indexación y almacenamiento en caché

Mi impresión personal es Que it sencilla desconocimiento de TODAS las Formas de Hablar Con Google ELEGIR párr Una Mejor indexación y los Problemas de Privacidad Que ESTO Puede del conllevar, Pero Puede Ser Que Exista algun Motivo Que Yo desconozco.

Cabecera HTTP X-Robots-Tag "noindex"

Este Problemas de indexación de Información se Extiende also a las direcciones URL de las FOTOGRAFÍAS o en documentos ofimáticos. Si Buscamos porción Cosas Que aparecen en los Servidores de la CDN Que utiliza Facebook , apareceran URLs Diversas, TODAS Ellas Filtradas Por El Fichero robots.txt .

Figura 6: URL De La CDN de Google Indexadas, Pero Filtradas porción robots.txt

Esto Es Algo Que COMO SE Puede ver, Google Detecta ya de como extraño, y saca la ONU Anuncio Con las Herramientas del Webmaster párr Indicar Que Si Se DESEA Borrar this in English Contenido, el unico camino es sacarse la Cuenta de Google , reclamar el site de como tuyo, y pedir de el Borrado De TODAS ESA URLs .

El Que aparezcan TODAS AEE URLs indica Que Facebook no no está Haciendo USO De Las ETIQUETAS X-Robots-Tag "noindex" en el Envío de El los Contenidos, Que ASI Google las introducen en los Resultados y listo.

Herramientas del Webmaster: El Parámetro n_m

Viendo Que Facebook No Se lleva muy bien acondicionado las options indexación de Google , mis compañeros de Once Caminos Que Forman "El Equipo de Investigación" sí Dieron Cuenta de Que es la web de Facebook en sí utiliza sin Parámetro de Nombre n_m Que lleva de como valor la Dirección de e_mail del usuario, y Que se EE.UU. en Direcciones URL Que NO ESTAN Filtradas porción robots.txt y no Hacen USO tampoco de la Meta Tag HTML NOINDEX o ni del Encabezado HTTP X-Robots-Tag "noindex" , porción Lo Que aparecen los muchas Direcciones de Correo en la caché del buscador.

Figura 7: Direcciones de estafa el Parámetro n_m Indexadas en Google

Como tampoco Tienen Ninguna Protección Para La estafa caché las ETIQUETAS HTML o encabezados HTTP NOARCHIVE aparecen Also in ella, he aquí Por Que es Fácil acceder a este mucha de Información de Lo Que Hacen los Usuarios Rastreando ESE Parámetro.

Figura 8: Direcciones de Correo en la caché de Google en Lista de parámetros n_m

Si Facebook QUIERE limpiarlo de Google , no le Queda Otra Que half board en el Servicio de Herramientas del Webmaster y Solicitar do Borrado

Conclusiones

La Existencia de 4 Puntos distintos de configuracion de las options indexación de la ONU buscador de como Google pueden liar un Webmasters tan Especializados de como Facebook , llevándoles un Tener Auténticos Problemas de Privacidad.

Supuesto Por, also Cuenta Que el Envío de Datos · sentidos Por La URL es Algo Que COMO Dije "ser podia tu perdición" Y Que no deja en buen Lugar a Facebook , Que espero tomo buena nota de ESTO y consiga PONER Un poco de Orden en Lo Que deja Que se indexé o no de EL.

SEGURIDAD INFORMATICA

Páginas

miércoles, 23 de abril de 2014

Facebook Tiene Problemas con la indexación en Google

No hay comentarios:

Publicar un comentario