Vulnerabilidad robots de búsqueda (Googlebot)

Vulnerabilidad robots de búsqueda (Googlebot)

de Santiago Benito González -
Número de respuestas: 6
Hola a todas/os.

Tengo instalado Moodle 1.9.2+ configurado de la siguiente manera:
  • NO se permite acceso a invitados.
  • La opción "opentogoogle" está DESACTIVADA.

Desde hace tiempo, al mirar los registros de uso había detectado entradas a la plataforma por usuarios sin autentificar, de los que sólo puedo saber su ip (cosa que no debería ocurrir en teoría, puesto que no he permitido el acceso de invitados).

Al investigar un poco esas ips, descubro que la mayoría de las entradas corresponden al robot de búsqueda Googlebot y, en menor medida, a otros ¿robots? que no puedo identificar.

Investigo un poco más y... ¡sorpresa!: ¡TODOS los mensajes de los foros "privados" (eso creía yo) de mi plataforma están publicados en Google, disponibles para todo el mundo! ¿Desde cuándo estarán ahí...?

A partir de ahí (ayer), ¡a correr!: sigo investigando y averiguo cómo solicitar a Google que borre todos esos mensajes de su índice (lo cual realizan en menos de 24 horas) y sigo las instrucciones para crear un fichero "robots.txt" en mi dominio que, teóricamente, impedirá que vuelva a indexar mis foros (tendré que comprobar en las próximas semanas que efectivamente es así).

Y ahora solicito su colaboración para la parte referente a Moodle: En primer lugar, me gustaría advertir al resto de usuarios de esta vulnerabilidad, por si pudieran estar en la misma situación que yo sin saberlo.

Por último, algunas preguntas:
  • ¿Exista alguna otra cosa que pueda hacer además de lo ya descrito para evitar este fallo?
  • ¿La opción "opentogoogle" desactivada funciona correctamente?
  • Si Moodle está configurado para que NADIE pueda acceder sin autentificarse, ¿no se supone que tampoco deberían acceder los robots de búsqueda? Yo lo considero una gravísima vulnerabilidad de la seguridad de Moodle.
  • ¿Podría una persona (no un robot de búsqueda) con los conocimientos suficientes, burlar sin mucho esfuerzo el sistema de autentificación de Moodle?
  • ¿Cómo es posible que estos robots entren tan fácilmente en Moodle? (Planteo estas dos últimas preguntas porque en este aspecto mi experiencia es nula, perdón si resultan obvias para los administradores más avanzados)
  • ¿Se podría implementar en futuras versiones alguna solución para este problema? (Habría que tener en cuenta incluso, aunque no es mi caso, que podemos tener algunos cursos abiertos a invitados y otros no, adonde no deberían llegar los robots)
Si alguien puede responder a algunas de estas preguntas, se lo agradezco de antemano.

Gracias y saludos,
Santi Benito
Promedio de valoraciones:Útil (1)
En respuesta a Santiago Benito González

Re: Vulnerabilidad robots de búsqueda (Googlebot)

de Mario Zamora -
Compañero Santiago, pues estoy haciendo una plataforma de Moodle para mi proyecto de Tesis y he detectado que mi sitio también aparece en el buscador de Google, aunque tengo desactivada esa opción en Seguridad.
Si alguien conoce la solución por favor les agradeceríamos grandemente. En mi caso la plataforma la tengo montada en UBUNTU.

gracias y saludos
En respuesta a Santiago Benito González

Re: Vulnerabilidad robots de búsqueda (Googlebot)

de Eloy Lafuente (stronk7) -
Imagen de Desarrolladores Imagen de Desarrolladores de plugins Imagen de Documentadores Imagen de Moderadores Imagen de Moodle HQ Imagen de Moodlers de gran ayuda Imagen de Testers
Hola Santiago,

y los cursos cuyos foros están siendo indexados por Google... tienen prohibido el acceso a invitados (ajuste de curso)?

En teoría con "opentogoogle" puesto a no, y con el botoncito "guestloginbutton" desactivado debería bastar para no ser indexado, más si los cursos los tienes configurados (cada uno de ellos) con el "prohibir acceso a invitados".

Ciao sonrisa
En respuesta a Eloy Lafuente (stronk7)

Re: Vulnerabilidad robots de búsqueda (Googlebot)

de Pablo Hugo Acevedo -
Pues en mi caso el Google solo tiene en su inventario la portada y ¡El calendário dia por dia desde 1914!

Pero los recursos y actividades de mis cursos no.

Verficar con "site:pabloha.moodlefarm.socialminds.jp"

Realmente curioso este asunto.
En respuesta a Eloy Lafuente (stronk7)

Re: Vulnerabilidad robots de búsqueda (Googlebot)

de Alejandro Lozano -
Realmente curioso e interesante, alguien me podria decir como revisar esto en nuestro moodle, como verifico si aparezco en estas busquedas????

Muchas gracias
Alejandro Lozano
En respuesta a Alejandro Lozano

Re: Vulnerabilidad robots de búsqueda (Googlebot)

de Mario Zamora -
Es sencillo. Sólo escriba el nombre que aparece en la portada de su sitio en el buscador de Google. Sé que para algunos profesores esto no tiene ningún inconveniente, pero en mi caso me gustaría que el sitio sólo fuera visible para mis estudiantes escribiendo la dirección proporcionada.
En respuesta a Santiago Benito González

Re: Vulnerabilidad robots de búsqueda (Googlebot)

de Santiago Benito González -

Hola a todas/os.

En primer lugar, se me olvidó en mi primer mensaje explicar cómo podemos comprobar qué tiene Google indexado de nuestro sitio. Es muy sencillo: en Google tecleamos "site:misitio" y nos devolverá el listado de todas las páginas que tiene en su índice de nuestra web (ejemplo: "site:moodle.org" nos devuelve 694.000 páginas de este sitio).

Por otra parte, problema resuelto:

Tras varios mensajes de Eloy Lafuente de moodle.org (al que agradezco enormemente su dedicación) y varias comprobaciones por mi parte, ya  entiendo cómo había generado yo mismo, de una manera un poco "enrevesada", la vulnerabilidad sin darme cuenta (no era fácil, eh pensativo).

Aquí está lo que dice Eloy:

"Ahí va un resumen, de mayor a menor protección:

1) Ajustando "forcelogin" a Sí, se consigue que todas las páginas del sitio, portada y cursos estén protegidas con usuario y contraseña. Además, ajustando "guestloginbutton" a No, conseguirás que los invitados no puedan entrar, solo usuarios registrados en el sitio. Por el contrario, si de dejas "guestloginbutton" a Sí, cualquier usuario (y también los buscadores) podrán "pinchar" el botón y ver la portada y todos los enlaces que en ella existan.

2) Si dejar "forcelogin" a No, la portada y todos los enlaces que en ella haya serán visibles para todo el mundo (buscadores incluídos). Y además, todos los cursos que tengan el ajuste "Acceso de invitados" a "Permitir acceso sin contraseña" también serán visibles para todo el mundo (buscadores incluídos).

Y esto es así con y sin "opentogoogle" activado. Lo único que ese ajuste hace... es detectar si la solicitud viene de un robot y "auto-conectar" al mismo como invitado. Conclusión... todo lo que en tu sitio puede ver un invitado... lo pueden ver los buscadores. Todo.

Por otra parte, restringir (cambiando permisos) el acceso a un bloque, no sirve de nada, ya que el módulo continuará teniendo permisos de acceso. Si en la portada quieres tener un foro que no sea accesible por los invitados/buscadores, solo hay 2 soluciones:

a) Utilizar el método 1) de arriba ("forcelogin" + "guestloginbutton" + "opentogoolge" desactivado).

b) Editar los permisos del foro para que los invitados no tengan acceso al mismo (no el bloque en el que aparece un enlace al foro, sino el foro en sí mismo).

Y, básicamente, ese es el asunto. Por defecto la portada (y todo lo que en ella hay) es visible para invitados/buscadores. Solo con a) o b) puedes evitarlo.

Personalmente, prefiero dejar la portada accesible, para poner noticias y cosas generales y crear un curso sin acceso a invitados para añadir las actividades/recursos comunes que quieras mantener. Este sistema evita tener que andar cambiando permisos de los roles en la página principal y demás."

De cómo generé yo la vulnerabilidad (por si puede servir a otros usuarios):

  • Mis foros están situados en la portada de Moodle (aquí está el origen de los problemas), aunque no están visibles hasta que los usuarios se validan y, además no admito acceso de invitados. Aparentemente, esto funcionaba correctamente: sólo podían ver los foros los usuarios a los que yo daba de alta en la plataforma... salvo por los robots de búsqueda (Googlebot, etc)
  • Tengo "forcelogin" en NO, porque hay algunos bloques de la portada que sí quiero que vea todo el mundo.
  • En el BLOQUE que contiene los foros anulé el permiso de Guest para "ver bloque" pero, como dice Eloy, "restringir (cambiando permisos) el acceso a un bloque, no sirve de nada, ya que el módulo continuará teniendo permisos de acceso" y ahí está la clave de la vulnerabilidad: efectivamente, al no bloquear el acceso en CADA foro (módulos) sino en el bloque, esto funciona bien para usuarios "humanos" pero deja abierto el acceso a los robots de búsqueda.

Bueno, espero haberme explicado con claridad y, de nuevo, gracias a Eloy.

Saludos,

Santiago Benito