Scrapear y eliminar URLs indexadas en Google

Scrapear y eliminar URLs indexadas en Google
Vota este Post (que voy)

desindexar url de google

¿Cómo podemos scrapear, eliminar o desindexar URLs de una web que ya están aparececiendo en los resultados de Google (están indexando)? En esta ocasión será un artículo con menos lerele, e iré al grano.

¡Te explicaré en este artículo, cómo paso a paso, eliminar individual o masivamente URLs indexadas!

Todas las web, blogger o SEOs estamos siempre algo obsesionados con la indexación (por razones evidentes). Pero en ocasiones no queremos o no debemos de indexar contenido (puedes leer el artículo para más info).

En otras, ya puede ser tarde y el contenido se encuentra indexado – aparece en los resultados, la SERPs de Google -, y queremos desindexarlo o eliminarlo de dichos resultados.

¿Por qué queríamos desindexar URLs de Google?

Estas son algunas de las razones por las que deberías de eliminar URLs que ya están indexadas.

  • En el caso de las tiendas online, eliminar URLs que nos estén generando paginaciones, búsquedas, filtros, combinaciones, etc.
  • También en ecommerce, eliminar de los resultados URLs que no nos aportan tráfico, y nos consumen tiempo de scrapeo de Google.
  • URLs con contenido duplicado (interno).
  • URLs creadas por error o hackeo de la web. He encontrado casos con miles de URLs indexadas por un hackeo, con contenido chino  ¡Un problemazo!
  • El más común, páginas o artículos que hemos eliminado y nos están generando errores 404, porque ya no existen.

No debemos de desindexar con métodos de disallow de Search Console. Cuando se está indexando versiones de www y sin www; o cuando instalamos el protocolo de seguridad https, y se están indexando ambas versiones (con y sin https).

Vamos al lío… Mandar a eliminar URLs indexadas en Google (o desindexar)

Los pasos para desindexar URLs en resumen son los siguientes:

  1. Realizar un búsqueda en Google con el comando Site (Ej: site:www.pilladoporlared.com)
  2. Tener un listado de todas las URLs que nos aparecen (este es el paso normalmente más complicado, y del que te daré diferentes opciones).
  3. Ir a Search Console o WebMater Tools, a la propiedad correspondiente para enviar las URLs.
  4. Enviar una a una, o masivamente un archivo txt con todas los enlaces.
  5. Google en cuestión de minutos, horas o días (no me preguntes el porqué), desindexará las URLs.

Te comento paso a paso como debes de realizar el proceso:

Tener un listado (SCRAPEAR) de todas las URLs a desindexar

Esta es la parte más compleja y que es un poco más liosa. Te indico tres formas de poder tener dicho listado.

Este listado no solo será de las URLs que quieras desindexar, sino de todas las URLs que aparecen en Google indexadas.

O sea, que una vez tengas esta lista deberás de filtrar.

  • Sacar un listado con la herramienta Scrapebox: Scrapebox es de las herramientas imprescindibles para un SEO, y no solo para hacer Blackhat. Facilmente puedes sacar una lista de tus urls en Google, mira más info aquí (puedes importar, exportar, rechequear, etc).
  • El segundo método no te lo voy a explicar yo… Lo encontré en la web de David Calabuig . Simplemente debes de realizar unos ajustes de tu navegador, instalar una extensión en Chrome, y para adelante… Aunque hay un paso que no está ya en funcionamiento, y es el link de la página para que te aparezcan el listado de URLs, debes de utilizar este botón.
  • Esta tercera opción es la más fácil, pero dependemos de que una web, y de que esté operativa. Google Indexed Pages Extractor, esta herramientas es tan sencilla, que tan solo debes de poner tu dominio, y tendrás un listado de todas la URLs indexadas por Google, que luego puedes copiar en un txt.
  • Este último método, por si los anteriores no te han servido. Deberás de ir a tu cuenta de DRIVE, y abrir una nueva hoja de excel. Entonces tendrás que introducir el siguiente parámetro en una casilla sustituyendo “tudominio.com”, por tu dominio (obvio) – recuerda poner también tu buscador por país España: google.es . Entonces tendrás un listado de todas las urls, que podrás ordenar, para luego mandar a desindexar.
=importXml("https://www.google.com/search?q=site:www.tudominio.com&num=100&start=1"; "//cite")

Enviar las URLs a desindexar a Google en Search Console (Webmaster Tools)

Una vez tengamos filtradas las diferentes URLs, ya sea con un excel o a mano, debemos de copiarlas en un txt.

En Search Console, en principio solo podemos enviar una a una las URLs a desindexar, para ello elegimos la opción Indice de Google –> Eliminación de URL –> “remove page from search results and cache“.

desindexar url

Como puedes ver, en este caso aparece un botón que pone “seleccionar archivo”, y es que gracias a una extensión de Chrome podremos mandar un txt con todas la URLs de golpe.

Puedes bajarte la extensión desde aquí, y la debes de instalar en el navegador Chrome con permiso de desarrollador. Tan solo nos queda seleccionar nuestro archivo txt, y se empezarán a enviar a Google, para desindexar.

 

Algunas veces se queda “pillado” y tenemos que realizar de nuevo el proceso. También se desconoce el tiempo que tarda Google en desindexar, en ocasiones son horas (Google pensará que cuanto menos trabajo mejor).

Para no indexar URLs utilizamos nuestro robots.txt

Una vez que estas URLs ya no estén indexadas, y no queremos que vuelvan a indexar (si no son errores 404 u otro problema similar). Debemos de decir a Google que no las rastree.

Para ello tenemos que configurar correctamente nuestro archivo robots.txt, e indicar con un disallow, que URLs o categorías no queremos que se vuelvan a rastrear.

¡Espero que te sirva este tutorial! y si tienes alguna consulta de SEO, no dudes en mandar un comentario.

¿Te gustaría un tutorial sobre la configuración del robots.txt?

PD: Una vez medio terminado el artículo, vi que Gastre tiene uno muy similar… Espero que no se lo tome a mal, y que yo en este articulo te haya aportado alguna cosa más.

Un saludo, a todos los SEOsssss

2 comentarios en “Scrapear y eliminar URLs indexadas en Google”

Deja un comentario