Quando a maioria das pessoas
fala sobre os mecanismos de busca da Internet, elas, de fato, se referem aos
mecanismos de busca da World Wide Web.
Antes de a Web se tornar a
parte mais visível da Internet, já existiam mecanismos de busca para ajudar as
pessoas a encontrar informações na Rede.
Programas com nomes como
"gopher" e "Archie" mantinham índices de arquivos
armazenados em servidores conectados à Internet e reduziam drasticamente a
quantidade de tempo requerida para encontrar programas e documentos.No final da
década de 1980, extrair o máximo valor da Internet significava saber usar o
gopher, Archie, Veronica e outros.
Hoje, a maioria dos usuários
da Internet limita suas buscas à Web; assim, limitaremos este artigo aos
mecanismos de busca que se concentram no conteúdo das páginas da Web.
Um começo tímido
Antes de um mecanismo de busca
poder dizer a você onde um arquivo ou documento está, ele deve ser encontrado.
Para encontrar informações em centenas de milhões de páginas da Web, um
mecanismo de busca emprega robôs de software especiais, chamados aranhas, para
construir listas de palavras encontradas nos sites da Web. Quando uma aranha
está construindo suas listas, o processo é chamado de rastejamento da Web.
(Existem algumas desvantagens em chamar parte da Internet de World Wide Web: um
grande conjunto de nomes "aracnídeos" para as ferramentas é uma
delas.) Para construir e manter uma lista útil de palavras, as aranhas de um
mecanismo de busca precisam olhar várias páginas.
Como qualquer aranha começa
suas viagens na Web? Os pontos iniciais usuais são as listas de servidores
muito usados e páginas muito procuradas. A aranha começará por um site popular,
indexando as palavras em suas páginas e seguindo cada link encontrado dentro do
site. Dessa forma, o sistema de aranhas inicia rapidamente a viagem,
alastrando-se pelas partes mais amplamente usadas da Web.
Manter tudo executando rapidamente
significava construir um sistema para alimentar as informações necessárias para
as aranhas. O primeiro sistema do Google tinha um servidor dedicado a fornecer
URLs às aranhas. Em vez de depender de um provedor de serviços da Internet para
um servidor de nome de domínio (DNS) que traduz um nome de servidor em um
endereço, o Google tinha seu próprio DNS, para manter os atrasos em patamares mínimos
Google.com começou como um mecanismo de busca acadêmico. No documento que
descreve como o sistema foi construído,
Sergey Brin e Lawrence Page dão um
exemplo do quão rapidamente suas aranhas podem funcionar. Eles construíram seu
sistema inicial para usar múltiplas aranhas, geralmente três ao mesmo tempo.
Cada aranha poderia manter cerca de 300 conexões com páginas da Web abertas ao
mesmo tempo. Em seu desempenho máximo, usando quatro aranhas, os sistemas deles
poderiam rastejar sobre 100 páginas por segundo, gerando cerca de 600 kilobytes
de dados a cada segundo.
Quando a aranha do Google
olhou para uma página HTML, ela anotou duas coisas:
As palavras que ocorrem no
título, subtítulos, meta tags e outras posições de relativa importância foram
anotadas para consideração especial durante a busca de usuário subsequente. A
aranha do Google foi criada para indexar toda palavra significante em uma
página, desconsiderando os "um", "uma", "o" e
"a". Outras aranhas seguem abordagens diferentes.
Essas abordagens diferentes
geralmente tentam fazer a aranha operar mais rápido ou permitir aos usuários
buscar com mais eficiência, ou ambos. Por exemplo, algumas aranhas controlarão
as palavras no título, subtítulos e links, juntamente com as 100 palavras mais frequentemente
usadas na página e cada palavra nas primeiras 20 linhas de texto. Acredita-se
que oLycos (em inglês) use essa abordagem para vasculhar a Web com suas
aranhas.
Outros sistemas, como o Altavista
(em inglês), vão em outra direção, indexando cada palavra de uma página,
incluindo "um", "uma", "o", "a" e
outras palavras "insignificantes". O avanço em direção à totalidade
dessa abordagem é equiparado por outros sistemas na atenção dada à parte não
vista da página da Web, as meta tags.
Meta tags
As meta tags permitem aos
proprietários de uma página especificar palavras-chave e determinar sob quais
delas a página será indexada. Isso pode ser útil, especialmente nos casos em
que as palavras na página podem ter significados duplos ou triplos: as meta
tags podem guiar o mecanismo de busca para escolher qual desses vários
possíveis significados para essas palavras é o correto. Existe, porém, um
perigo em se confiar em excesso nas meta tags, porque um dono de página
inescrupuloso ou descuidado pode acrescentar meta tags que se encaixem em
tópicos muitos populares, mas que não tenham nada a ver com o real conteúdo da
página. Para se proteger contra isso, as aranhas correlacionam as meta tags com
o conteúdo da página, rejeitando aquelas que não coincidam com as palavras na
página.
Tudo isso presume que o
proprietário de uma página, de fato, deseja que essas palavras sejam incluídas
nos resultados das atividades de um mecanismo de busca. Muitas vezes, o
proprietário da página não deseja que ela seja mostrada em um mecanismo de
busca grande, ou não deseja a atividade de uma aranha acessando a página.
Considere, por exemplo, um jogo que cria páginas ativas novas sempre que as
seções da página são exibidas ou novos links são seguidos.
Se uma aranha da Web
acessar uma dessas páginas e começar a seguir todos os links para novas
páginas, o jogo poderia confundir a atividade para um jogador humano muito
veloz e sair de controle. Para evitar situações como essas, o protocolo de
exclusão de robô foi desenvolvido. Esse protocolo, implementado na seção de
meta tag no início de uma página da Web, diz a uma aranha para deixar a página:
não indexar as palavras na página nem tentar seguir seus links.