Em resposta ao post de Dezembro de 2007 sobre o tamanho do indice do Google, o leitor Lucas Prado dos Anjos enviou a query “”””””*www*”*”*”*”*”*”* que retorna 24.4 bilhões de resultados no Google Brasil.

A mesma consulta aplicada ao Google.com retorna 159 milhões de páginas a mais, ou seja, 2.590.000.000 resultados.

Até o momento é o maior número de resultados retornado e está muito próximo do tamanho anunciado do Índice do Google que, segundo a imprensa, é de 25 bilhões de páginas.
Testando apenas *www* retorna 1 bilhão a menos.
Tentando entender a query do Lucas, observo empiricamente que a sequência antes do *www não importa, portanto a consulta *www*”*”*”*”*”*”* retorna o mesmo número de resultados:

Se as aspas estiverem desbalanceadas não há resultados:

Então o parser do Google está buscando por aspas casadas, que significam frases. O asterisco significa “qualquer frase”, ou seja o lado direito de *www* diz para o Google buscar frases que contenham qualquer coisa.
Mas se buscarmos por *”*”*”*”*”*”*”*”*”*”*”*”* – ou algo assim – significando quaisquer frases lado a lado “dentro de qualquer outra coisa”, o Google não retorna nada. Porque não há palavra alguma para buscar e isso dispara o “filtro anti-absurdo” que impede de buscarmos pela negação de absurdos (algo tipo -sadf899s8d89a). Então o *www* ao mesmo tempo busca todos os domínios que tenham www(porque o Google de fato procura nos host names) e ainda livra a consulta do “filtro anti-absurdo” e permite que busquemos por frases que contenham “qualquer coisa”, de fato trazendo o maior número de resultados até o momento.
Uma observação importante: aparentemente o número de frases buscadas altera o resultado, mesmo que o significado sintático seja o mesmo. Ou seja:
* significa “tudo”
Então ** significa “tudo” também, pois não há conjunto maior que o todo.
Então o filtro de absurdos do Google ignora queries desse tipo, senão teríamos todos os resultados sem ter que “enganá-lo”.
Então, o lado direito da query: *”*”*”*”*”*”*
Busca exatamente 3 frases quaisquer ao lado de qualquer outra coisa. Se inserirmos uma quarta frase, ele retorna menos resutados. Se buscarmos 2 frases, o resultado também é menor.
Conclui-se que o Google só busca 3 frases contendo coringas por query, a quarta combinação de “*” já não funciona e apenas 2 não buscam o número suficiente de frases.
Parabéns ao Lucas pela descoberta.
PS. A maior autoridade da Internet Brasileira, Registro.br, não tem WWW em seu host name, portanto provavelmente não participa desse conjunto de resultados.
****www***
Google em inglês retorna 25,750,000,000
****com***
Google em ingles retorna 25,780,000,000
*”*com”"*”*”"
Googlo em inglês retorna 25,790,000,000
23.870.000.000 para *”*com””*”*”” (0,33 segundos)
25.920.000.000 para ****www*** (0,18 segundos)
O estranho é que se procurarmos por:
43.340.000.000 para +www (0,09 segundos) – na 1a busca “não filtrar resultados ativados”
percebí variações se buscarmos de novo a string citada, más, agora, só pq percebí isso não está variando. Deve ser a ley de Murphy.
abraços