abr 2008 13

Em resposta ao post de Dezembro de 2007 sobre o tamanho do indice do Google, o leitor Lucas Prado dos Anjos enviou a query “”””””*www*”*”*”*”*”*”* que retorna 24.4 bilhões de resultados no Google Brasil.

Tamanho do indice do google Abril 2008

A mesma consulta aplicada ao Google.com retorna 159 milhões de páginas a mais, ou seja, 2.590.000.000 resultados.

Tamanho do indice do google Abril 2008

Até o momento é o maior número de resultados retornado e está muito próximo do tamanho anunciado do Índice do Google que, segundo a imprensa, é de 25 bilhões de páginas.

Testando apenas *www* retorna 1 bilhão a menos.

Tentando entender a query do Lucas, observo empiricamente que a sequência antes do *www não importa, portanto a consulta *www*”*”*”*”*”*”* retorna o mesmo número de resultados:

Tamanho do indice do google Abril 2008

Se as aspas estiverem desbalanceadas não há resultados:

Tamanho do indice do google Abril 2008

Então o parser do Google está buscando por aspas casadas, que significam frases. O asterisco significa “qualquer frase”, ou seja o lado direito de *www* diz para o Google buscar frases que contenham qualquer coisa.

Mas se buscarmos por *”*”*”*”*”*”*”*”*”*”*”*”* – ou algo assim – significando quaisquer frases lado a lado “dentro de qualquer outra coisa”, o Google não retorna nada. Porque não há palavra alguma para buscar e isso dispara o “filtro anti-absurdo” que impede de buscarmos pela negação de absurdos (algo tipo -sadf899s8d89a). Então o *www* ao mesmo tempo busca todos os domínios que tenham www(porque o Google de fato procura nos host names) e ainda livra a consulta do “filtro anti-absurdo” e permite que busquemos por frases que contenham “qualquer coisa”, de fato trazendo o maior número de resultados até o momento.

Uma observação importante: aparentemente o número de frases buscadas altera o resultado, mesmo que o significado sintático seja o mesmo. Ou seja:

* significa “tudo”
Então ** significa “tudo” também, pois não há conjunto maior que o todo.

Então o filtro de absurdos do Google ignora queries desse tipo, senão teríamos todos os resultados sem ter que “enganá-lo”.

Então, o lado direito da query: *”*”*”*”*”*”*

Busca exatamente 3 frases quaisquer ao lado de qualquer outra coisa. Se inserirmos uma quarta frase, ele retorna menos resutados. Se buscarmos 2 frases, o resultado também é menor.

Conclui-se que o Google só busca 3 frases contendo coringas por query, a quarta combinação de “*” já não funciona e apenas 2 não buscam o número suficiente de frases.

Parabéns ao Lucas pela descoberta.

PS. A maior autoridade da Internet Brasileira, Registro.br, não tem WWW em seu host name, portanto provavelmente não participa desse conjunto de resultados.

abr 2008 15

As “Google Bombs” continuam funcionando! Em Janeiro de 2007 o Google lançou uma alteração em seu algoritmo para evitar Google Bombs, ou seja, quando houvessem muitos links para uma página contendo o mesmo texto-âncora(texto que você clica no link) ele passava a ignorar esses links por serem uma tentativa de manipular o índice.

Por exemplo: Quando você pede ao Google para encontrar Chuck Norris você é direcionado à página de um gaiato que imitou o visual do Google, onde se lê : “o Google não pode encontrar Chuck Norris, é o Chuck Norris que encontra você.”
[..]

abr 2008 15

Um suposto ex-funcionário do Google afirma: aquela propaganda do ano passado de que o Google é o melhor lugar para se trabalhar, na qual os funcionários do Google aparecem malhando, comendo comidas finas à vontade e vivendo num ambiente corporativo dos sonhos é mentira. Ele vai mais longe, afirma que os funcionários estão insatisfeitos e que a comida que era boa até 2005 hoje é intragável.

Onde você encontra esse tipo de relato? Num site para funcionários insatisfeitos, ou ex-funcionários do Google, é claro – o FuckedGoogle.com.

O site traz fofocas sobre funcionários, chefes que andaram “furando o olho” de outros chefes (ou funcionários) e um bocado de coisa ruím sobre o Google.

Pra quem quer sair da rotina de sempre ver coisas boas sobre essa revolucionária empresa, o FuckedGoogle.com é o lugar para visitar.

Dizem que se a sua empresa ainda não tem um site de ex-funcionários chateados então você ainda não pode ser considerado um dos grandes. A maioria das maiores empresas do mundo registram FuckSEUNOME.com junto com SEUNOME.com já se prevenindo contra isso.

abr 2008 23

Todo programador sonha em criar uma linguagem de programação, e muitos assim o fazem. Algumas linguagens se mostram expressivas, práticas e, portanto, úteis. Essas linguagens se chamam Perl.

A seguinte tabela lógica(de verdades) resume o que há em termos de linguagens no mercado hoje.

Linguagem de Programação = Perl
C = pai do Perl, veterano de 65535 guerras(0 derrotas)
Máquina Virtual = Mustang 1966 conversível
C++ = C cheio de encrenca
[..]

abr 2008 26

Tenho conversado com experientes programadores e “hackers”(no sentido correto da palavra hacker) e todos concordam que há algo de errado com a ADSL da Brasil Telecom.

Há uma latência enorme entre os pedidos e os pacotes de resposta. Dentro das limitações de se fazer uma análise estando totalmente por fora da rede da BrT conseguí chegar a um único culpado: o sistema de DNS.

Fiz um servidor DNS apenas para “cache”(apenas “escravo”, sem autoridade) numa máquina Linux de minha rede e a navegação ficou muito mais rápida porque consultas a domínios que foram visitadas dentro do “Time To Live”, ou TTL, da “zona” DNS ficam lá gravadas (normalmente por 24 horas ou vários dias). Assim a query DNS não sai pela Brasil Telecom novamente. O google por exemplo, Gmail, etc, coisas que uso muito ficam muito mais rápidas tendo um cache de DNS local.
[..]

Page 1 of 212