← Desenvolvimento

Robots

Lida 1713 vezes

Offline

dardevelin 
Membro
Mensagens 249 Gostos 0
Troféus totais: 21
Trófeus: (Ver todos)
Linux User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1 100 Posts

Pessoal estou a criar um ficheiro robots.txt para o meu site cidadecool.com, tenho aqui uma lista de nomes de bots, e gostava que opinassem quais os que recomendam e quais os que punham disalow. Fiz um temporário igual ao do +T entretanto gostava de saber mais opiniões.

Aqui vai a lista -

User-agent: Alexibot

User-agent: Aqua_Products

User-agent: asterias

User-agent: b2w/0.1

User-agent: BackDoorBot/1.0

User-agent: BlowFish/1.0

User-agent: Bookmark search tool

User-agent: BotALot

User-agent: BotRightHere

User-agent: BuiltBotTough

User-agent: Bullseye/1.0

User-agent: BunnySlippers

User-agent: CheeseBot

User-agent: CherryPicker

User-agent: CherryPickerElite/1.0

User-agent: CherryPickerSE/1.0

User-agent: Copernic

User-agent: CopyRightCheck

User-agent: cosmos

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0

User-agent: Crescent

User-agent: DittoSpyder

User-agent: EmailCollector

User-agent: EmailSiphon

User-agent: EmailWolf

User-agent: EroCrawler

User-agent: ExtractorPro

User-agent: FairAd Client

User-agent: Flaming AttackBot

User-agent: Foobot

User-agent: Gaisbot

User-agent: GetRight/4.2

User-agent: Harvest/1.5

User-agent: hloader

User-agent: httplib

User-agent: HTTrack 3.0

User-agent: humanlinks

User-agent: InfoNaviRobot

User-agent: Iron33/1.0.2

User-agent: JennyBot

User-agent: Kenjin Spider

User-agent: Keyword Density/0.9

User-agent: larbin

User-agent: LexiBot

User-agent: libWeb/clsHTTP

User-agent: LinkextractorPro

User-agent: LinkScan/8.1a Unix

User-agent: LinkWalker

User-agent: LNSpiderguy

User-agent: lwp-trivial/1.34

User-agent: lwp-trivial

User-agent: Mata Hari

User-agent: Microsoft URL Control - 5.01.4511

User-agent: Microsoft URL Control - 6.00.8169

User-agent: Microsoft URL Control

User-agent: MIIxpc/4.2

User-agent: MIIxpc

User-agent: Mister PiX

User-agent: moget/2.1

User-agent: moget

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)

User-agent: MSIECrawler

User-agent: NetAnts

User-agent: NICErsPRO

User-agent: Offline Explorer

User-agent: Openbot

User-agent: Openfind data gatherer

User-agent: Openfind

User-agent: Oracle Ultra Search

User-agent: PerMan

User-agent: ProPowerBot/2.14

User-agent: ProWebWalker

User-agent: psbot

User-agent: Python-urllib

User-agent: QueryN Metasearch

User-agent: Radiation Retriever 1.1

User-agent: RepoMonkey Bait & Tackle/v1.01

User-agent: RepoMonkey

User-agent: RMA

User-agent: searchpreview

User-agent: SiteSnagger

User-agent: SpankBot

User-agent: spanner

User-agent: suzuran

User-agent: Szukacz/1.4

User-agent: Teleport

User-agent: TeleportPro

User-agent: Telesoft

User-agent: The Intraformant

User-agent: TheNomad

User-agent: TightTwatBot

User-agent: toCrawl/UrlDispatcher

User-agent: True_Robot/1.0

User-agent: True_Robot

User-agent: turingos

User-agent: TurnitinBot/1.5

User-agent: TurnitinBot

User-agent: URL Control

User-agent: URL_Spider_Pro

User-agent: URLy Warning

User-agent: VCI WebViewer VCI WebViewer Win32

User-agent: VCI

User-agent: Web Image Collector

User-agent: WebAuto

User-agent: WebBandit/3.50

User-agent: WebBandit

User-agent: WebCapture 2.0

User-agent: WebCopier v.2.2

User-agent: WebCopier v3.2a

User-agent: WebCopier

User-agent: WebEnhancer

User-agent: WebSauger

User-agent: Website Quester

User-agent: Webster Pro

User-agent: WebStripper

User-agent: WebZip/4.0

User-agent: WebZIP/4.21

User-agent: WebZIP/5.0

User-agent: WebZip

User-agent: Wget/1.5.3

User-agent: Wget/1.6

User-agent: Wget

User-agent: wget

User-agent: WWW-Collector-E

User-agent: Xenu's Link Sleuth 1.1c

User-agent: Xenu's

User-agent: Zeus 32297 Webster Pro V2.9 Win32

User-agent: Zeus Link Scout

User-agent: Zeus

User-agent: Adsbot-Google

User-agent: Googlebot

User-agent: Mediapartners-Google


Obrigado desde já
Offline

dardevelin 
Membro
Mensagens 249 Gostos 0
Troféus totais: 21
Trófeus: (Ver todos)
Linux User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1 100 Posts

Pessoal e uma ajudinha não ?
Offline

Shaddz 
Membro
Mensagens 2324 Gostos 2
Feedback +9

Troféus totais: 29
Trófeus: (Ver todos)
Windows User Linux User Mobile User Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4

Não compliques
Offline

cjseven 
Administrador
Mensagens 1809 Gostos 26
Feedback +3

Troféus totais: 28
Trófeus: (Ver todos)
Super Combination Combination Topic Starter Poll Voter Level 5 Level 4 Level 3 Level 2 Level 1 1000 Posts

E porque não permitir todos?!
Offline

dardevelin 
Membro
Mensagens 249 Gostos 0
Troféus totais: 21
Trófeus: (Ver todos)
Linux User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1 100 Posts

E porque não permitir todos?!

Também pensei nisso mas depois fiquei na duvida, e por exemplo o HTTrack 3.0 deve ser um gasto de bandwith daqueles visto que têm um programa para baixar sites completos.

Desde o dia que fiz o poste tive a ler por ai e parece que alguns bots é preferivel bloquear porque depois de la andarem surge uma onde de spam daquelas. (problema quais)

Esta a pedir ajuda também porque andei a ver alguns robots de sites que visito e alguns deles que por sinal são muito bem indexados têm nos robots disallow a todos bots mas usam metas. Não sei se há benefícios nisso ou não.
Offline

cjseven 
Administrador
Mensagens 1809 Gostos 26
Feedback +3

Troféus totais: 28
Trófeus: (Ver todos)
Super Combination Combination Topic Starter Poll Voter Level 5 Level 4 Level 3 Level 2 Level 1 1000 Posts

O robot.txt é um ficheiro informativo mas não impede o scan do site se houver más intenções. Por isso, qualquer robot com segundas intenções está-se a marimbar para o robots.txt.

Desliga o complicómetro e aceita tudo. Depois pelas stats do site podes ver se há algum que te interessa desabilitar (consumir muito tráfego, etc).