← SEO

Dúvida robot.txt

Lida 2907 vezes

Offline

Rui Quintas 
Membro
Mensagens 84 Gostos 0
Feedback +1

Troféus totais: 22
Trófeus: (Ver todos)
Level 5 Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

Depois de investigar se já existia essa dúvida aqui no, maistráfego, decidi expor o seguinte;

O meu robot.txt é este:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /


Tenho erros de rastreamento....


Em termos de optimização não deveria de seguir este exemplo?


User-agent: *

Disallow: /


Opiniões, a favor/contra
Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

Ao fazeres "Disallow: /" estás a dizer ao robot que não autorizas que ele visite a raiz do teu site ("/"), ou seja estás a dizer que nada deve ser visitado, logo se ele não pode visitar não te indexa nada.

Como tens agora, ele está autorizado a visitar tudo, menos a pasta "/search", o que é correcto.

A nivel de optimização podes ainda escolher que ele não indexe algumas páginas como as páginas de login do teu painel de controle, no caso do wp tens como exemplo o "/wp-login*" e o "/wp-admin/*"
Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

Ainda sobre o user agent do bot, que só agora reparei, o que estás ai a autorizar/bloquear é o robot que analisa as páginas para te apresentar o adsense. Se o bloqueias ele não te vai servir ads dentro do contexto, simplesmente porque não tem acesso a elas. Isto caso optes pelo Disallow: /
Offline

Rui Quintas 
Membro
Mensagens 84 Gostos 0
Feedback +1

Troféus totais: 22
Trófeus: (Ver todos)
Level 5 Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

Ao fazeres "Disallow: /" estás a dizer ao robot que não autorizas que ele visite a raiz do teu site ("/"), ou seja estás a dizer que nada deve ser visitado, logo se ele não pode visitar não te indexa nada.

Como tens agora, ele está autorizado a visitar tudo, menos a pasta "/search", o que é correcto.

A nivel de optimização podes ainda escolher que ele não indexe algumas páginas como as páginas de login do teu painel de controle, no caso do wp tens como exemplo o "/wp-login*" e o "/wp-admin/*"


Então dizes que indexa tudo menos a pasta "search", eu estava a pensar de outra maneira, search, como não estava a indexar para os motores de busca, dai a dúvida e tantas opiniões que surgem e se vêm por ai...

Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

Sim, aliás tu nem precisas de ter o "allow", porque por defeito é o padrão.

Tens duas coisas importantes que precisas e saber sobre o robots.txt, que são:

- "User-agent:"  - Indica a que robot se destinam as regras, por exemplo podes usar "*" se se aplicam a todos os robots, ou especificar a qual se aplicam indicando o user-agent do robot (googlebot, bing, etc etc).

- "Disallow:" - Indica que não autorizas que deteminada pasta ou ficheiro seja acedido (e consequentemente indexado) pelo robot.

Exemplo de ficheiros: teusite.com/emprego (repara que nao tem barra final, logo é considerado um ficheiro), teusite.com/emprego.php.

Exemplo de pastas: teusite.com/emprego/ (repara que tem uma barra no fim, logo é uma pasta).

Para bloqueares o acesso a qualquer um deles basta usares:

Disallow: /ficheiro - Nega o acesso a um simples ficheiro
Disallow: /pasta/ - Nega o acesso a uma pasta e todo o seu conteudo
Disallow: /pasta1/pasta2/ficheiro - Nega o acesso ao ficheiro dentro da pasta 2
Disallow: /pasta1/pasta2/ - Nega a acesso a toda a pasta 2

Espero ter ajudado.
Offline

Rui Quintas 
Membro
Mensagens 84 Gostos 0
Feedback +1

Troféus totais: 22
Trófeus: (Ver todos)
Level 5 Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

Bem com uma lição destas uiui, obrigado  mesmo.
Existe muitas opiniões sobre este assunto e como eu eu tenho alguns erros de rastreamento fiquei na dúvida se seria o robot.txt que me estaria provocar estes erros.
A minha ideia era tão só, não colocar qualquer obstáculo aos motores de busca e mesmo se possível melhorar este aspecto.
Mas obrigada mesmo
Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

De nada :)

Podes ainda aprender mais sobre o robots.txt em: http://www.robotstxt.org/orig.html onde está tudo bem explicadinho e com exemplos.

E testar o teu robots.txt em http://www.sxw.org.uk/computing/robots/check.html

Embora seja muito simples, o robots.txt, mal configurado pode ter resultados desastrosos, na dúvida mais vale não inventar, com o risco de deixares de ter o site indexado.
Offline

Honesto-e-Bom-Rapaz 
Membro
Mensagens 11 Gostos 0
Troféus totais: 16
Trófeus: (Ver todos)
Super Combination Combination Level 3 Level 2 Level 1 10 Posts First Post Signature Karma Webmaster


Concordo com tudo o que disse o bonsempregos e reforço o aviso dele:
-É preciso ter muito cuidado no uso dos ficheiros robots.txt e .htaccess.
Em caso de dúvida, é melhor não usar nada.

Apenas acrescento uma coisa:

As indicações dentro do ficheiro robots.txt não têm carácter imperativo. Ou seja: são sugestões e não ordens.
O bot pode passar por elas e ignorá-las. E pode indexar qualquer página, se isso lhe apetecer.


Para impedir a passagem de bots, é necessário usar o .htaccess.

Com as devidas linhas de código, é possível impedir (por exemplo) a passagem de um bot malicioso que tenha como objectivo roubar dados ou mandar o site abaixo.
No mínimo, é possível causar-lhe embaraços, desviá-lo noutra direcção; ou, pelo menos, guardar o registo da sua passagem. (Isso pode ser útil, mais tarde, para identificar quem anda a vasculhar.)


Rui
@[Festa da Informática]