28dic
28

code_spider.png

En SigT.net nos ayudan a mejorar nuestro espacio de comunicación. En esta ocasión han elaborado un fichero robots.txt con el que mejorar la visibilidad del blog y, de paso, evitar contenido duplicado en los buscadores (¡pecado mortal para Google!).

Por descontado que lo he aplicado tal cual pues las reglas que proponen son del todo acertadas.

Lo tienes aquí mismo y, por supuesto, no dejes de visita el blog de Armonth, un imprescindible.

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Vía | SigT.net

Para saber más:

  • Sabogal

    Tengo dudas sobre la forma correcta de bloquear las categorias. Es que solo quiere que se indexen los post y las paginas, pero no las categorias.

    Gracias

  • Pedro

    Hola me gustaría saber donde tengo que poner este código, no se hace una carpeta robots.text y donde?

    muchas gracias de ante mano.

  • http://www.noticiate.com Pablou

    Hola PEDRO, tienes que crear un archivo de texto y copiar el codigo en el, luego tienes que cargarlo en el directorio raiz de tu sitio.

    saludos!

  • http://www.perecalonge.com/exlibris/ Pere

    Hola,
    acabo de estrenar una web gestionada con WordPress, y he creado un archivo robots.txt a partir de esta recomendación tuya y unas mínimas modificaciones mías. El caso es que Google ha empezado a indexar algunas páginas de la web, y se ha lanzado en tromba a hacerlo con todas las que tienen la estructura permalink.pdf, justamente las que no me interesaba que cogiera… No lo entiendo, porque probando el robots.txt con el propio Google Webmaster Tools me bloquea perfectamente ese tipo de url. ¿Cual puede ser el problema? De verdad que no lo entiendo…
    Gracias.

  • http://acratas.mihost.info/Prometheo/ javier

    Cual es el directorio raiz. Yo lo he puesto, mediante FTP nada mas abrir el wordpress llamado prometheo. Es ahí?.

  • http://fernandotellado.com/ Fernando Tellado

    @javier: el raiz es donde veas el fichero wp-config.php

  • http://acratas.mihost.info/Prometheo/ javier

    OK gracias lo he puesto en el lugar que habia que ponerlo, no si a veces…..

  • http://www.gerencie.com Sabogal

    Como hago para bloquear los paginas de comentarios que genera wordpress 2.7?

    Saludos!

  • Pingback: Sugerencias para el “robots.txt” de tu sitio | TodoWordPress

  • http://www.estudio-tla.com.ar emip3

    acabo de verificar en http://tool.motoricerca.info/robots-checker.phtml y básicamente me lo pinto todo de rojo!!! (errores), podrías verificarlo Fer?. Gracias!

    • http://fernandotellado.com/ Fernando Tellado

      emip3, depende de que tipo de errores son importantes o no. Mejor que usar herramientas de terceros usa las de Google (Webmaster tools) a ver que te cuenta. A mi, por ejemplo, esa herramienta me da como errores pijadas como que una línea debe estar separada de otra con un intro de mas y cosas así.

  • http://www.estudio-tla.com.ar emip3

    ok Fer, WB Tools me dice solo tres cositas, a ver vos que sos el que sabe: me dice:
    Crawl-delay: 50 Norma ignorada por Googlebot
    Crawl-delay: 30 Norma ignorada por Googlebot
    Crawl-delay: 10 Norma ignorada por Googlebot

    que son las líneas que están debajo de:

    User-agent: noxtrumbot
    User-agent: msnbot
    User-agent: Slurp

    …respectivamente…

  • Pingback: Pequeños apuntes sobre Wordpress | Cyberick

  • http://www.carlosvarela.net Carlos

    try my version without warnings, mi versión sin errores de advertencia.

    blog.unab.cl/robots.txt

  • Pingback: Puedo usar 2 tipos de robots ?

  • Pili_pilili

    Hola!!

    Veo que este artículo ya tiene unos años, ¿sigue siendo válido el robots.txt?, ¿hay algo más reciente?

    Saludos!!

    • http://fernandotellado.com/ Fernando Tellado

      Es perfectamente válido ;)

  • http://www.bbsport.info Josep

    Hola buenas,
    Mirando un poco de información para optimizar el archivo robots.txt de mi blog de WP, llegué a éste post y me pareció un apunte muy interesante y bueno.
    A veces los buscadores se ponen a indexar lo que no te interesa, y lo que te interesa tarda mogollón, es la ley de murphy, pero con éste archivo robots.txt, se puede paliar un poco la ley de Murphy.

    muchas gracias y saludos ;-)

  • Pingback: Archivo robots.txt perfecto para tu blog WordPress | Seofacil.net

  • http://www.quizzer.com.ar Quizzer

    Muchisimas gracias voy a usarlo! saludos

  • Pingback: Robot.txt esta bien ?

  • http://www.factoriavoodoo.com Voodoo

    Buen articulo, me lo guardo porque es muy interesante pero una pregunta…
    si tengo el blog alojado en un subdominio…ejemplo http://www.midominio.com/blog como funciona el robots.txt seria algo así?

    Disallow: /blog/wp-
    Disallow: /blog/?s=
    Disallow: /blog/search
    Allow: /blog/feed/$
    Disallow: /blog/feed
    Disallow: /blog/comments/feed
    Disallow: /blog/*/feed/$
    Disallow: /blog/*/feed/rss/$
    Disallow: /blog/*/trackback/$
    Disallow: /blog/*/*/feed/$
    Disallow: /blog/*/*/feed/rss/$
    Disallow: /blog/*/*/trackback/$
    Disallow: /blog/*/*/*/feed/$
    Disallow: /blog/*/*/*/feed/rss/$
    Disallow: /blog/*/*/*/trackback/$
    User-agent: MSIECrawler
    Disallow: /
    User-agent: WebCopier
    Disallow: /
    User-agent: HTTrack
    Disallow: /
    User-agent: Microsoft.URL.Control
    Disallow: /
    User-agent: libwww
    Disallow: /
    User-agent: noxtrumbot
    Crawl-delay: 50
    User-agent: msnbot
    Crawl-delay: 30
    User-agent: Slurp
    Crawl-delay: 10

  • http://www.factoriavoodoo.com Voodoo

    Me contesto a mi mismo, creo que se necesita otro robots.txt para el subdominio y por lo tanto el /blog que le había colocado no es es correcto, es tal como lo has puesto tu y colocandolo en la raiz del subdominio.

    Un saludo

  • Pingback: wp-popular.com » Blog Archive » Robots.txt Perfecto para Wordpress | Ayuda WordPress

  • http://www.bestanimationsoftwareblog.com Ronalds

    Hola, en tu robots incluyes esta linea
    Disallow: /?s=
    queria saber exactamente cual es su funcion, ya que he visto otros robots que en vez de S tiene una P
    Disallow: /?p=
    supongo que es para evitar contenido duplicado cuando usamos permalinks personalizados, ya que tenia esa linea con la S y supongo que es la razon por la que google actualmenbte me lanza un error de redireccionamiento en mi blog justo para el ?p=4 bueno yo supongo que es por eso, talvez tengas una mejor explicacion, y otra pregunta, tambien veo que algunos incluyen esto
    Disallow: /xmlrpc
    podrias explicarme para que sirve esta linea, bueno gracias de antemano, espero me ayudes.

  • Pingback: Cómo mejorar el posicionamiento (seo) en Wordpress | DosisWeb

  • Pingback: Humans.txt | Ayuda WordPress

  • Pingback: Cómo mejorar el posicionamiento (seo) en Wordpress