← Google

Qual é o tamanho da web?

Lida 6102 vezes

Offline

epsy 
Membro
Mensagens 553 Gostos 1
Feedback +1

Troféus totais: 25
Trófeus: (Ver todos)
Search Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

Quanto é que acham que "mede a internet"?

Estima-se que haja mais de 600 milhões de sites activos.

Em termos de páginas (url's), as contas são evidentemente muito mais complicadas. Por exemplo o google indica que para a pesquisa por "the" existem 25.270.000.000 de páginas, exactamente o mesmo número de páginas encontradas para as pesquisas "for" e "de" (humm muito estranho ...) .

Mas se contarmos com todas as línguas do mundo e todas a páginas que o google não indexa, esse número deverá ultrapassar os 100 biliões (?).

Isto levanta uma questão acerca das reais capacidades do google (ou de qualquer outro sistema) em verificar o conteúdo duplicado na web.  Se não vejamos: cada vez que google indexa um url (novo ou não), para verificar se esse conteúdo é duplicado teria que comparar o conteúdo dessa página (url) com todas as outras páginas que estão indexadas.

E não me parece que isso aconteça.



Offline

betanalista 
Membro
Mensagens 2564 Gostos 0
Feedback +18

Troféus totais: 26
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4 Level 3 Level 2 Level 1


Isto levanta uma questão acerca das reais capacidades do google (ou de qualquer outro sistema) em verificar o conteúdo duplicado na web.  Se não vejamos: cada vez que google indexa um url (novo ou não), para verificar se esse conteúdo é duplicado teria que comparar o conteúdo dessa página (url) com todas as outras páginas que estão indexadas.

E não me parece que isso aconteça.



Desculpa a sinceridade, mas para qualquer programador, isso era meio "maçarico" não te parece?

Já pensaste que essa procura pode ser feita apenas no país do site? (como é um bocado óbvio)
Já pensaste que os sites podem ser indexados na base de dados do google em diferentes categorias?
...
Offline

epsy 
Membro
Mensagens 553 Gostos 1
Feedback +1

Troféus totais: 25
Trófeus: (Ver todos)
Search Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1


Já pensaste que essa procura pode ser feita apenas no país do site? (como é um bocado óbvio)


EDIT:

Quando dizes por país, referes-te à língua, certo? Repara que há muitas páginas principalmente mais antigas que não tem indicação de língua.
Offline

Luís Salvador 
Membro
Mensagens 2068 Gostos 37
Feedback +4

Troféus totais: 28
Trófeus: (Ver todos)
Apple User Super Combination Combination Topic Starter Poll Voter Level 5 Level 4 Level 3 Level 2 Level 1

Vamos lá filosofar... e o tamanho do universo, alguém sabe?
Offline

betanalista 
Membro
Mensagens 2564 Gostos 0
Feedback +18

Troféus totais: 26
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4 Level 3 Level 2 Level 1

EDIT:

Quando dizes por país, referes-te à língua, certo? Repara que há muitas páginas principalmente mais antigas que não tem indicação de língua.


da mesma forma que o google sabe a posicionar cada página/site nos diferentes tld (google.pt, google.com, google.com.br) como é óbvio sabe a que país/língua atribuir cada site
Offline

guisantos 
Membro
Mensagens 388 Gostos 0
Feedback +7

Troféus totais: 22
Trófeus: (Ver todos)
Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1 100 Posts 50 Posts

Quanto é que acham que "mede a internet"?

Estima-se que haja mais de 600 milhões de sites activos.

Em termos de páginas (url's), as contas são evidentemente muito mais complicadas. Por exemplo o google indica que para a pesquisa por "the" existem 25.270.000.000 de páginas, exactamente o mesmo número de páginas encontradas para as pesquisas "for" e "de" (humm muito estranho ...) .

Mas se contarmos com todas as línguas do mundo e todas a páginas que o google não indexa, esse número deverá ultrapassar os 100 biliões (?).

Isto levanta uma questão acerca das reais capacidades do google (ou de qualquer outro sistema) em verificar o conteúdo duplicado na web.  Se não vejamos: cada vez que google indexa um url (novo ou não), para verificar se esse conteúdo é duplicado teria que comparar o conteúdo dessa página (url) com todas as outras páginas que estão indexadas.

E não me parece que isso aconteça.





1 site tem várias páginas, o google pesquisa por páginas e não por sites
Offline

dblue_one 
Membro
Mensagens 263 Gostos 0
Feedback +2

Troféus totais: 21
Trófeus: (Ver todos)
Super Combination Combination Topic Starter Level 4 Level 3 Level 2 Level 1 100 Posts 50 Posts 10 Posts

Tá aqui o tamanho da web http://www.worldwidewebsize.com/
Offline

epsy 
Membro
Mensagens 553 Gostos 1
Feedback +1

Troféus totais: 25
Trófeus: (Ver todos)
Search Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

da mesma forma que o google sabe a posicionar cada página/site nos diferentes tld (google.pt, google.com, google.com.br) como é óbvio sabe a que país/língua atribuir cada site


Classificar os sites por tld's é fácil obviamente, mas por país como é que fazes isso?
A única possibildade é por língua, mas como já disse, há muitos sites, principalmente os mais antigos, que não tem meta tags de línguagem.

O meu post inicial foi um pouco simplista, trabalho com bases de dados e com indexação e classificação de dados e conheço as formas mais usuais de classificar dados.

O objectivo era mostrar que  a verificação de duplicação de conteúdos, não é feita como muitas pessoas pensam. Não é absolutamente exacta, é aproximada (devido ao volume de conteúdos existentes) , e não engloba todas as páginas existentes.

1 site tem várias páginas, o google pesquisa por páginas e não por sites
No meu post, penso que é clara a distinção entre sites e páginas (urls).

Offline

raugusto 
Elite
Mensagens 3145 Gostos 33
Feedback +13

Troféus totais: 31
Trófeus: (Ver todos)
Level 6 Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4 Level 3 Level 2

Citar
existem 25.270.000.000 de páginas

estão errados esses números, acabei de criar outro site. 25.270.000.001
Offline

guisantos 
Membro
Mensagens 388 Gostos 0
Feedback +7

Troféus totais: 22
Trófeus: (Ver todos)
Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1 100 Posts 50 Posts

estão errados esses números, acabei de criar outro site. 25.270.000.001

 :superlol:
depois existem os sites que não permitem index
Offline

Luís Marquês 
Membro
Mensagens 1430 Gostos 19
Feedback +27

Troféus totais: 24
Trófeus: (Ver todos)
Apple User Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

A famosa Deep Web  :superlol:
Offline

Project 
Membro
Mensagens 1471 Gostos 17
Feedback +22

Troféus totais: 25
Trófeus: (Ver todos)
Mobile User Apple User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

Offline

betanalista 
Membro
Mensagens 2564 Gostos 0
Feedback +18

Troféus totais: 26
Trófeus: (Ver todos)
Super Combination Combination Topic Starter 10 Poll Votes Poll Voter Level 5 Level 4 Level 3 Level 2 Level 1

Classificar os sites por tld's é fácil obviamente, mas por país como é que fazes isso?
A única possibildade é por língua, mas como já disse, há muitos sites, principalmente os mais antigos, que não tem meta tags de línguagem.


eu não disse que os sites era classificados por tld, eu disse que os diferentes tld's do google (os "diferentes googles") classificam os sites de forma diferente..

por exemplo se fores ao google.pt e fizeres uma pesquisa e ao google.com e fizeres a mesma pesquisa os resultados são diferentes

quer isto dizer que o google.pt sabe quais os "sites de portugal"

não fazia sentido por exemplo quando uma página é adicionada ao motor de busca essa página ser comparada com páginas chinesas, inglesas, etc para ver se o conteúdo é duplicado (tal como sugerias)

portanto um dos muitos factores de "classificação" dos sites no google, para executarem os seus algoritmos, poderá ser o país a que "pertence" o site
Offline

epsy 
Membro
Mensagens 553 Gostos 1
Feedback +1

Troféus totais: 25
Trófeus: (Ver todos)
Search Windows User Super Combination Combination Topic Starter Poll Voter Level 4 Level 3 Level 2 Level 1

Sim claro que o google dá preferência regional consoante o cTLD, mas a questão aqui, é que o TLD de cada país não serve para o google classificar os sites. Eu posso criar um site em português com TLD de espanha (.es) e vice-versa.

Por isso, nesta situação, é único critério possível de classificação é o da língua, mas  isso para as páginas que identificam a respectiva língua, o que nem todas fazem.

Ou seja, o google para ter a certeza que o conteúdo de determinada página criada num site .pt ou num site .com não estava duplicado, teria que comparar com os sites de (quase) todos os tld's.

 
 

Offline

asturmas 
Administrador
Mensagens 19734 Gostos 49
Feedback +2

Troféus totais: 39
Trófeus: (Ver todos)
Mobile User Windows User Super Combination Combination Topic Starter 100 Poll Votes 50 Poll Votes 10 Poll Votes Poll Voter Poll Starter

EDIT:

Quando dizes por país, referes-te à língua, certo? Repara que há muitas páginas principalmente mais antigas que não tem indicação de língua.

Mas qual tag? Mas vocês acham mesmo que o Google só trabalha com base em tags?