Em resposta ao post de Dezembro de 2007 sobre o tamanho do indice do Google, o leitor Lucas Prado dos Anjos enviou a query “”””””*www*”*”*”*”*”*”* que retorna 24.4 bilhões de resultados no Google Brasil.

A mesma consulta aplicada ao Google.com retorna 159 milhões de páginas a mais, ou seja, 2.590.000.000 resultados.

Até o momento é o maior número de resultados retornado e está muito próximo do tamanho anunciado do Índice do Google que, segundo a imprensa, é de 25 bilhões de páginas.
Testando apenas *www* retorna 1 bilhão a menos.
Tentando entender a query do Lucas, observo empiricamente que a sequência antes do *www não importa, portanto a consulta *www*”*”*”*”*”*”* retorna o mesmo número de resultados:

Se as aspas estiverem desbalanceadas não há resultados:

Então o parser do Google está buscando por aspas casadas, que significam frases. O asterisco significa “qualquer frase”, ou seja o lado direito de *www* diz para o Google buscar frases que contenham qualquer coisa.
Mas se buscarmos por *”*”*”*”*”*”*”*”*”*”*”*”* – ou algo assim – significando quaisquer frases lado a lado “dentro de qualquer outra coisa”, o Google não retorna nada. Porque não há palavra alguma para buscar e isso dispara o “filtro anti-absurdo” que impede de buscarmos pela negação de absurdos (algo tipo -sadf899s8d89a). Então o *www* ao mesmo tempo busca todos os domínios que tenham www(porque o Google de fato procura nos host names) e ainda livra a consulta do “filtro anti-absurdo” e permite que busquemos por frases que contenham “qualquer coisa”, de fato trazendo o maior número de resultados até o momento.
Uma observação importante: aparentemente o número de frases buscadas altera o resultado, mesmo que o significado sintático seja o mesmo. Ou seja:
* significa “tudo”
Então ** significa “tudo” também, pois não há conjunto maior que o todo.
Então o filtro de absurdos do Google ignora queries desse tipo, senão teríamos todos os resultados sem ter que “enganá-lo”.
Então, o lado direito da query: *”*”*”*”*”*”*
Busca exatamente 3 frases quaisquer ao lado de qualquer outra coisa. Se inserirmos uma quarta frase, ele retorna menos resutados. Se buscarmos 2 frases, o resultado também é menor.
Conclui-se que o Google só busca 3 frases contendo coringas por query, a quarta combinação de “*” já não funciona e apenas 2 não buscam o número suficiente de frases.
Parabéns ao Lucas pela descoberta.
PS. A maior autoridade da Internet Brasileira, Registro.br, não tem WWW em seu host name, portanto provavelmente não participa desse conjunto de resultados.
As “Google Bombs” continuam funcionando! Em Janeiro de 2007 o Google lançou uma alteração em seu algoritmo para evitar Google Bombs, ou seja, quando houvessem muitos links para uma página contendo o mesmo texto-âncora(texto que você clica no link) ele passava a ignorar esses links por serem uma tentativa de manipular o índice.
Por exemplo: Quando você pede ao Google para encontrar Chuck Norris você é direcionado à página de um gaiato que imitou o visual do Google, onde se lê : “o Google não pode encontrar Chuck Norris, é o Chuck Norris que encontra você.”
[..]
Um suposto ex-funcionário do Google afirma: aquela propaganda do ano passado de que o Google é o melhor lugar para se trabalhar, na qual os funcionários do Google aparecem malhando, comendo comidas finas à vontade e vivendo num ambiente corporativo dos sonhos é mentira. Ele vai mais longe, afirma que os funcionários estão insatisfeitos e que a comida que era boa até 2005 hoje é intragável.
Onde você encontra esse tipo de relato? Num site para funcionários insatisfeitos, ou ex-funcionários do Google, é claro – o FuckedGoogle.com.
O site traz fofocas sobre funcionários, chefes que andaram “furando o olho” de outros chefes (ou funcionários) e um bocado de coisa ruím sobre o Google.
Pra quem quer sair da rotina de sempre ver coisas boas sobre essa revolucionária empresa, o FuckedGoogle.com é o lugar para visitar.
Dizem que se a sua empresa ainda não tem um site de ex-funcionários chateados então você ainda não pode ser considerado um dos grandes. A maioria das maiores empresas do mundo registram FuckSEUNOME.com junto com SEUNOME.com já se prevenindo contra isso.
Todo programador sonha em criar uma linguagem de programação, e muitos assim o fazem. Algumas linguagens se mostram expressivas, práticas e, portanto, úteis. Essas linguagens se chamam Perl.
A seguinte tabela lógica(de verdades) resume o que há em termos de linguagens no mercado hoje.
Linguagem de Programação = Perl
C = pai do Perl, veterano de 65535 guerras(0 derrotas)
Máquina Virtual = Mustang 1966 conversível
C++ = C cheio de encrenca
[..]
Tenho conversado com experientes programadores e “hackers”(no sentido correto da palavra hacker) e todos concordam que há algo de errado com a ADSL da Brasil Telecom.
Há uma latência enorme entre os pedidos e os pacotes de resposta. Dentro das limitações de se fazer uma análise estando totalmente por fora da rede da BrT conseguí chegar a um único culpado: o sistema de DNS.
Fiz um servidor DNS apenas para “cache”(apenas “escravo”, sem autoridade) numa máquina Linux de minha rede e a navegação ficou muito mais rápida porque consultas a domínios que foram visitadas dentro do “Time To Live”, ou TTL, da “zona” DNS ficam lá gravadas (normalmente por 24 horas ou vários dias). Assim a query DNS não sai pela Brasil Telecom novamente. O google por exemplo, Gmail, etc, coisas que uso muito ficam muito mais rápidas tendo um cache de DNS local.
[..]