← Google

Bot google está constantemente no mesmo ponto

Lida 4614 vezes

Offline

kurtmix 
Membro
Mensagens 1895 Gostos 605
Feedback +4

Troféus totais: 28
Trófeus: (Ver todos)
Tenth year Anniversary Nineth year Anniversary Eighth year Anniversary Seventh year Anniversary Search Level 5 Windows User Super Combination Combination Topic Starter

Tenho estado a reparar que um dos meus sites está a ser visitado de 30 em 30 minutos por um bot da google, mas 70% das vezes está na página "Login Area Menu", ou seja na secção de login.
Não percebo qual o motivo de insistir tanto nessa página porque o conteúdo do site é aberto.
Alguém tem ideia de que pode levar o bot a tanta insistência?
Também achei estranho que o google esteja presente com tanta frequência, estive a verificar os IPs e dos sites que tenho apenas visita esse com tanta assiduidade.
Resta dizer que o site está ainda em fase de acabamentos, não foi sequer submetido a nenhum motor de busca ou directório, nem divulgado. O domínio ainda nem 1 mês de existência tem e está também a ser visitado por bots da bing, ask e de outros que nem conhecia...
O que mais me inquieta é o bot da google bater constantemente na página de login.
Offline

Celso Azevedo 
Membro
Mensagens 3500 Gostos 38
Feedback +12

Troféus totais: 32
Trófeus: (Ver todos)
Level 6 Tenth year Anniversary Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4 Level 3

Bloqueia o acesso a essa área através do robots.txt ;)

Este é o código:

Código: [Seleccione]
User-agent: *
Disallow: /wp-admin/

Alerta o /wp-admin/ pelo caminho para a página de login.
Offline

kurtmix 
Membro
Mensagens 1895 Gostos 605
Feedback +4

Troféus totais: 28
Trófeus: (Ver todos)
Tenth year Anniversary Nineth year Anniversary Eighth year Anniversary Seventh year Anniversary Search Level 5 Windows User Super Combination Combination Topic Starter

Não é um blog wordpress, é um site de leilões.
A mim não me  incomoda que o bot visite, até penso que deve ser vantajoso, só não percebo porque vai tantas vezes à página de login.
Offline

Celso Azevedo 
Membro
Mensagens 3500 Gostos 38
Feedback +12

Troféus totais: 32
Trófeus: (Ver todos)
Level 6 Tenth year Anniversary Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4 Level 3

Não é um blog wordpress, é um site de leilões.

O robots.txt e as regras que colocas lá não têm nada a ver com wordpress. Se há uma área que não deve ser indexada, fazes o que eu disse e a maior parte dos bots respeitam. Só não deves fazer isso se quiseres que essa página/área seja mesmo indexada.
Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

provavelmente tens por toda as páginas, faça login para fazer um licitação, ou algo similar.

E em cada um desses lins difere o parametro de retorno a pagina antes do login. exemplo: login.php?returnpage=xpto.html

Para o google ou outro crawler cada link desses é único.

Solução:
- Canonical na pagina de login e usar um rel="nofollow" nesses links

Usares um robots.txt neste caso so te vai prejudicar, porque a existirem tantos links por todo o site a passar PR para uma página que depois o bot não pode aceder só te vai estragar o PR global.
Offline

kurtmix 
Membro
Mensagens 1895 Gostos 605
Feedback +4

Troféus totais: 28
Trófeus: (Ver todos)
Tenth year Anniversary Nineth year Anniversary Eighth year Anniversary Seventh year Anniversary Search Level 5 Windows User Super Combination Combination Topic Starter

O robots.txt já está configurado para as zonas que não deve aceder, já tinha tido em conta esse ponto.
 
provavelmente tens por toda as páginas, faça login para fazer um licitação, ou algo similar.

E em cada um desses lins difere o parametro de retorno a pagina antes do login. exemplo: login.php?returnpage=xpto.html

Para o google ou outro crawler cada link desses é único.

Solução:
- Canonical na pagina de login e usar um rel="nofollow" nesses links

Usares um robots.txt neste caso so te vai prejudicar, porque a existirem tantos links por todo o site a passar PR para uma página que depois o bot não pode aceder só te vai estragar o PR global.

Tens toda a razão, para licitar obviamente é necessário estar registado e redirecciona.
De certeza que é isso que está a causar a situação.
Estive a ver e o google está a indexar pesquisas no meu site, ou seja está a usar o motor de pesquisa do site e a indexar cada pesquisa que faz.
Isso está a provocar 4200 indexações actuais num site que quase não tem ainda conteúdo.
Verifiquei também outra coisa, neste momento tenho 3 bots diferentes da google no site, em ocasiões ficam lá mais de 1 minuto, será que algo está a relentizar o acesso ou é normal? 
Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

Faças o que fizeres não metas nada no robots.txt a proibir para já...

Depois do mal estar feito, tens que resolver essas situações e esperar pelo menos uns 6 meses, mais tarde podes então bloquear.

é normal virem bots de todo o lado, basta teres visto o teu site numa ferramenta qq que tenha o link.

Em relação à pesquisa a solução é a mesma, um no follow nos links da página da pesquisa.
Offline

kurtmix 
Membro
Mensagens 1895 Gostos 605
Feedback +4

Troféus totais: 28
Trófeus: (Ver todos)
Tenth year Anniversary Nineth year Anniversary Eighth year Anniversary Seventh year Anniversary Search Level 5 Windows User Super Combination Combination Topic Starter

Faças o que fizeres não metas nada no robots.txt a proibir para já...

Depois do mal estar feito, tens que resolver essas situações e esperar pelo menos uns 6 meses, mais tarde podes então bloquear.

é normal virem bots de todo o lado, basta teres visto o teu site numa ferramenta qq que tenha o link.

Em relação à pesquisa a solução é a mesma, um no follow nos links da página da pesquisa.

O robots.txt apenas está (e sempre esteve) a proíbir o acesso à àrea de administração e à pasta functions que é inevitável estarem protegidas.
Está a ser feita uma média de 120 indexações por dia e muitas apontam para o resultado que era a página de login.
Se não possuir a rel nofollow é automaticamente indexado como dofollow?
Offline

bonsempregos 
Membro
Mensagens 2008 Gostos 7
Feedback +3

Troféus totais: 29
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Poll Starter Level 5 Level 4 Level 3 Level 2

Sim, todos os links sao "dofollow" se não tiverem o rel="nofollow".

aliás, dofollow nem existe.

E repara que o nofollow é apenas uma sugestão para o crawler, não quer dizer que o respeitem (regra geral respeitam, mas pode haver exepções).

Em relação ás áreas que  tens agora no robots deve estar sim. O importante é que nas páginas acessiveis a utilizadores anónimos não existam links para essas páginas.