Glossário de SEO

Robots.txt

O robots.txt é o arquivo responsável por ocultar algumas páginas de um site que não devem ser encontradas em mecanismos de busca. Não se trata de nada ilegal ou sigiloso, apenas páginas como login dos administradores, acessos que sejam de exclusividade de usuários, entre outras.

 

Basicamente esse arquivo que, como o nome já diz, tem formato .txt, deve estar na pasta raiz do site, para que os robots do Google, Yahoo, Bing e todos os outros buscadores identifiquem quais páginas não devem ser mostradas.

 

Por que usar o robots.txt?

Além dessas páginas, essa função serve para sinalizar ordens dos robots de motores de busca. Então, toda parte técnica fica “escondida” e só quem tem o acesso de verdade consegue vê-las. Mesmo que alguém pesquise exatamente o que está escrito na página, ela não irá aparecer.

 

E isso não funciona só com páginas, mas também com imagens e arquivos. No caso das imagens, se o seu site possui infográficos ou designs que são de acesso exclusivo, o robot.txt irá proteger.

 

A proteção também se expande para bloquear acessos indesejados, seja por arquivos de script ou outros que não sejam tão importantes, deixando o servidor mais livre.

 

Como criá-lo?

Criar um arquivo de robot.txt é mais simples do que se imagina, a única exigência é saber alguns comandos que vamos falar um pouco mais para frente. Mas, inicialmente, você só precisa criar o arquivo no próprio bloco de notas do seu computador.

 

Além disso, você precisa ter o acesso da pasta raiz do seu site, para poder hospedar o arquivo – é só salvar o arquivo criado no bloco de notas dentro dessa pasta. Depois desse processo que é preciso aplicar alguns comandos.

 

Comandos

Se você já conhece um pouco de linguagem de programação, esses comandos serão fáceis, pois são bem similares ao html. Separamos três comandos principais que são importantes de saber.

 

– User-agent: esse comando é usado para você identificar e enviar ordens a um robô específico, por exemplo, User-agent Bingbot ou User-agent Googlebot;

 

– Disallow: esse comando é usado para indicar quais são as páginas que não devem aparecer nas pesquisas. Para usá-lo, basta colocar a URL desejada após o comando,

 

– Allow: esse comando é usado para indexar as páginas que você quer que sejam indexadas. Ele serve para indexar algumas páginas dentro do comando Desallow. Por exemplo, você quer que acessem a página “blog”, mas dentro dela não quer que acessem a pasta “arquivos”.

 

Robots.txt e suas limitações

Mesmo parecendo muito útil, esse recurso ainda possui algumas limitações de uso. Começando pelas instruções dadas. Nem sempre os motores de busca obedecerão o que foi requisitado. Por isso é interessante trabalhar com outros métodos junto ao robots.txt, a fim de ocultar as páginas no Google, por exemplo.

 

Cada robô de busca pode entender o seu comando de maneira diferente, mesmo que haja um padrão internacional. Tente adaptar seu arquivo de acordo com o site de busca, para que os comandos sejam atendidos.

 

Por mais que os comandos não mostrem suas páginas escolhidas na busca, isso não impede que outros sites façam referência a ela, então, consequentemente, elas podem aparecer de outra maneira na pesquisa. Certifique-se de criar um login e senha para que as páginas não tenham acesso.

Veja aqui dos termos mais buscados em Marketing Digital e SEO com separados em ordem alfabética.

 

Glossário de SEO

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z