O arquivo robots.txt é usado para indicar os diretórios ou arquivos do site que não devem ser acessados pelos robôs de indexação, conhecidos como bots e crawlers, dos mecanismos de busca, como o Google, Bing e o Baidu.
Caso seu site não tenha o arquivo robots.txt, os mecanismos de busca irão indexá-lo normalmente. Caso contrário, é possível controlar quais diretórios ou arquivos serão pesquisáveis nos mecanismos de busca que respeitam o padrão robots.txt. O uso mais comum desse recurso é para evitar a indexação de páginas relacionadas à administração do site ou de scripts que causam sobrecarga quando varridos pelos robôs dos buscadores.
Criar robots.txt
O arquivo robots.txt deve ser criado como texto simples (sem formatação ou caracteres especiais) e salvo na raiz do site. Ele deve conter a lista dos diretórios e arquivos que você deseja bloquear das ferramentas de busca.
Exemplo: o conteúdo abaixo orienta todos os robôs (User-agent) a não indexarem o arquivo print.html:
User-agent: *
Disallow: print.html
NOTA: A utilização do caractere “*“(asterisco) em User-agent determina que a regra valha para todos os robôs.
Bloquear conjunto de arquivos
Também é possível desabilitar um conjunto de arquivos específicos utilizando o caractere “*” (asterisco) na linha em que é descrito o arquivo ou diretório à ser desindexado.
Exemplo: o conteúdo abaixo orienta todos os robôs a bloquear a indexação de todas as URLs que contenham a palavra “script”, independentemente da localização do diretório ou arquivo:
User-agent: *
Disallow: /*script
Bloquear arquivos e diretórios específicos
O arquivo robots.txt também possibilita criar regras para bloquear a indexação de diretórios ou arquivos específicos.
Exemplo: o conteúdo abaixo orienta todos os robôs a bloquear a indexação de todo o conteúdo dos diretórios config, admin/script e temp.
User-agent: *
Disallow: /config
Disallow: /admin/script
Disallow: /temp/
O efeito das linhas acima é bloquear a indexação de URLs de:
- /config: /config, /config.html, /config/install.php, /configurador, /config/index.php?id=123, etc.
- /admin/script: /admin/script, /admin/scripts, /admin/script/index.html, etc.
- /temp/: /temp/, /temp/arquivo, /temp/dir/sess.txt, etc.
Bloquear toda a indexação do site
Para bloquear totalmente a indexação do todo seu conteúdo FTP (não recomendado), utilize:
User-agent: *
Disallow: /
Criar regras específicas para cada robô
Você também pode criar regras específicas para cada robô de busca. Para isto, troque o caractere “*” (asterisco) da variável User-agent pelo nome do robô.
Exemplo: o conteúdo abaixo permite que somente o robô do Google (Googlebot) realize a indexação de todo seu conteúdo FTP:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
NOTAS:
- A lista dos bots (ou crawlers) ativos na internet é extensa e é atualizada com frequência. Os principais são: Googlebot, Baidu Spider, MSN Bot/BingBot, Yandex Bot, Soso Spider, ExaBot, Sogou Spider, Google Plus Share, Facebook External Hit e Google Feedfetcher.
- É possível consultar listas mais completas de bots através dos sites:
AVISO LEGAL: Os procedimentos descritos neste documento devem ser executados de acordo com o contexto de cada sistema, de forma a evitar impactos negativos à segurança, disponibilidade, integridade e privacidade de dados. A CentralServer se reserva o direito de modificar a qualquer tempo e sem aviso prévio as informações aqui apresentadas a fim de refletir o lançamento de novos serviços, atualizações físicas e operacionais, e evolução do estado-da-arte da tecnologia.