da mesma forma que o google sabe a posicionar cada página/site nos diferentes tld (google.pt, google.com, google.com.br) como é óbvio sabe a que país/língua atribuir cada site
Classificar os sites por tld's é fácil obviamente, mas por país como é que fazes isso?
A única possibildade é por língua, mas como já disse, há muitos sites, principalmente os mais antigos, que não tem meta tags de línguagem.
O meu post inicial foi um pouco simplista, trabalho com bases de dados e com indexação e classificação de dados e conheço as formas mais usuais de classificar dados.
O objectivo era mostrar que a verificação de duplicação de conteúdos, não é feita como muitas pessoas pensam. Não é absolutamente exacta, é aproximada (devido ao volume de conteúdos existentes) , e não engloba todas as páginas existentes.
1 site tem várias páginas, o google pesquisa por páginas e não por sites
No meu post, penso que é clara a distinção entre sites e páginas (urls).