Robots.txt Perfecto para Wordpress

En SigT.net nos ayudan a mejorar nuestro espacio de comunicación. En esta ocasión han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores (¡pecado mortal para Google!).
Por descontado que lo he aplicado tal cual pues las reglas que proponen son del todo acertadas.
Lo tienes aquí mismo y, por supuesto, no dejes de visita el blog de Armonth, un imprescindible.
#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
Vía | SigT.net
Valora el nivel de dificultad de esta
entrada:
También te puede interesar:










(8 votos, promedio: 2.63 de 3)
RSS















Tengo dudas sobre la forma correcta de bloquear las categorias. Es que solo quiere que se indexen los post y las paginas, pero no las categorias.
Gracias
Hola me gustaría saber donde tengo que poner este código, no se hace una carpeta robots.text y donde?
muchas gracias de ante mano.
Hola PEDRO, tienes que crear un archivo de texto y copiar el codigo en el, luego tienes que cargarlo en el directorio raiz de tu sitio.
saludos!
Hola,
acabo de estrenar una web gestionada con Wordpress, y he creado un archivo robots.txt a partir de esta recomendación tuya y unas mínimas modificaciones mías. El caso es que Google ha empezado a indexar algunas páginas de la web, y se ha lanzado en tromba a hacerlo con todas las que tienen la estructura permalink.pdf, justamente las que no me interesaba que cogiera… No lo entiendo, porque probando el robots.txt con el propio Google Webmaster Tools me bloquea perfectamente ese tipo de url. ¿Cual puede ser el problema? De verdad que no lo entiendo…
Gracias.
Cual es el directorio raiz. Yo lo he puesto, mediante FTP nada mas abrir el wordpress llamado prometheo. Es ahí?.
@javier: el raiz es donde veas el fichero wp-config.php
OK gracias lo he puesto en el lugar que habia que ponerlo, no si a veces…..