Na Prática: Como Localizar, Criar E Começar A Utilizar O Robots.Txt Nos Sites, Passo A Passo [2023]

No artigo anterior abordamos o método canónico  que, quando mal colocado, faz a duplicação de conteúdo, ou seja, de páginas. Em caso de não se poder resolver a duplicação de páginas no site, podemos recorrer ao Robots.txt. O Robots.txt é um arquivo de texto guardado na raiz de um website, que serve para controlar e instruir os robôs de pesquisa a lidarem com a indexação das respetivas páginas.

Com o Robots.txt pode permitir e/ou restringir páginas de serem rastreadas pelos motores de busca ou pode apenas permitir e/ou restringir uma página a um só motor de busca, ou seja, se tiver algumas páginas no seu site que não queira que o Google as encontre e as indexe, pode recorrer ao Robots.txt para restringir essas páginas apenas ao Google e não a outro motor de busca, por exemplo, o Bingo.

• Robots.txt

• Como encontrar um arquivo Robots.txt

• Criar um arquivo Robots.txt

• Diretivas dos Robots.txt

• Conclusão

Robots.Txt

Robots.txt é extremamente importante porque, se um site for muito grande ou contiver páginas com mau rankeamento, o Google não vai conseguir indexar tantas páginas assim e pode indexar as páginas piores que o site contenha. Um profissional de SEO terá de saber trabalhar com este arquivo Robots.txt, para dar o melhor dos sites aos motores de busca. Também é importante que se exclua recursos como pdf’s, vídeos e imagens dos resultados de pesquisa, pois estes sobrecarregam um website, a menos que seja um site com esse mesmo propósito.

Como Encontrar Um Arquivo Robots.Txt

O arquivo robots.txt está hospedado no mesmo servidor do seu site, poderá ver este arquivo no backend/hospedagem, nas pastas que contêm toda a estrutura do site (gestor de ficheiros), e se não encontrar poderá sempre pesquisar o arquivo:

Poderá também digitar a URL completa da sua página inicial e adicionar à frente: /robots.txt, que verá o seu arquivo Robots.txt: 

Se tiver um site no wordpress poderá recorrer a plugins, como o RankMath, que lhe disponibilizará um arquivo Robots.txt:

Criar Um Arquivo Robots.Txt

Criar um arquivo Robots.txt é muito fácil, apenas terá de abrir um arquivo.txt com qualquer editor de texto ou navegador, em que o vai nomear como “Robots.txt”. De seguida preenche as diretivas que quer definir para o seu site, guarde e coloque este ficheiro no backend do seu site: gestor de ficheiros, no diretório principal onde contêm todas as pastas do seu site.

Diretivas Dos Robots.Txt

No Hearder de cada página do site é possível colocar uma robots meta tag:

<meta name=”robots”content=”noindex”/>

Já no Robots.txt é possível definir algumas diretivas de indexação no seu site em geral. Para o efeito existe a diretiva “Allow” que informa os robôs de busca sobre o que eles podem indexar no website. O código abaixo indica que permite que os arquivos “JavaScript” e “CSS” sejam indexados e analisados:

Allow: .js

Allow: .css

Também é possível definir o comando “User-Agent” que determina qual é o robô de busca a que se dirige, neste caso, o “Googleboot” ou colocando um * permitindo que o seu site seja visto por todos os motores de busca existentes:

User-agent: Googleboot

User-agent: *

Adicionalmente, existe o comando de “Disallow”, que serve para impedir que uma página seja visualizada ou indexada pelos robôs de busca, neste caso a “Beta.php” e os ”Arquivos”:

Disallow: /beta.phpDisallow: /arquivos/

Por fim, existe a diretiva de indicação do “sitemap do website”, muito útil para auxiliar os robôs de busca a identificarem todas as páginas existentes no domínio. Hoje em dia esta diretiva está em dedevido às “Google Webmaster Tools” que auxiliam neste tema de uma forma mais eficaz.

Sitemap: https://www.seusite.com/sitemap.xml 

A diretiva Crawl-Delay pode ser muito útil porque ela especifica um atraso de rastreamento em segundos, serve para impedir que os robots sobrecarreguem um servidor (que deixam o seu site lento):

Crawl-delay: 10

Para um Robots.txt ser eficaz, convém ter uma estrutura bem definida, isto é, terá de se começar por declarar o User-Agent: se as páginas do site vão estar a ser rastreadas por todos os motores de pesquisa ou apenas um em específico. Após comunicar o User-Agent terá de se especificar se o site quer permitir/allow rastrear todas as páginas e/ou aquelas que se quer restringir. Caso queira colocar o Crawl-Delay deve-se fazer depois do

User-Agent.

Pode testar se o seu Robots.txt está incutido no site e se este está bem estruturado através destas duas opções:

. A ferramenta Testar robots.txt no Search Console;

. A biblioteca robots.txt de código aberto.


Conclusão

Robots.txt é uma técnica de SEO crucial, pois é uma mais-valia para os sites, mesmo como recurso para tornar estes mais rápidos e leves, como para definir o que é útil e pode ser mostrado ao Google ou vice-versa, saiba mais sobre outras técnicas importantes de SEO que podem complementar com este método.

Atualmente, muitas empresas precisam de resultados imediatos, mas a verdade é que não podem dar-se ao luxo de implementar SEO internamente enquanto alavancam com a prioridade do foco do seu negócio.  Se ainda não consegue dar conta destas etapas ou não tiver tempo para as colocar em prática, a Bringlink SEO garante que tenha a visibilidade e o crescimento da marca que merece.

Fale connosco, envie email para a bringlinkseo@gmail.com.


Referências

SemRush – https://pt.semrush.com/blog/guia-robots-txt/?kw=&cmp=BR_POR_SRCH_DSA_Blog_PT&label=dsa_pagefeed&Network=g&Device=c&utm_content=641182637757&kwid=dsa-1930213674448&cmpid=19241772885&agpid=147326225431&BU=Core&extid=64625808048&adpos=&gclid=EAIaIQobChMIhMyS2Jy4_gIVGrnVCh2EhANfEAAYASAAEgJ15PD_BwE