Archive for the ‘Geral’ Category

Descrições mais utilizadas nos links

Sunday, May 11th, 2008

Analisamos os mais de 5 milhões de links contidos nas 1,25 milhão de páginas cadastradas em nosso banco de dados em busca das descrições mais utilizadas nos links. Foram selecionadas as 20 descrições mais utilizadas. O resultado pode ser visto abaixo:

1º Home
2º Contato
3º Fale Conosco
4º Empresa
5º Produtos
6º Quem somos
7º Serviços
8º Principal
9º Notícias
10º Clientes
11º Página Inicial
12º A empresa
13º Links
14º Fotos
15º Localização
16º Eventos
17º Início
18º Parceiros
19º Artigos
20º Cadastre-se

Análise do tamanho dos nomes de domínios

Saturday, April 5th, 2008

A grande quantidade de sites em nosso banco de dados já nos permite fazer uma análise de nomes dos domínios. Foram analisados 327.000 domínios .com.br, que hoje equivale a aproximadamente 28% de todos os domínos .com.br existentes.

Você sabia que as expressões com 8 letras são as mais usadas em nomes de domínio .com.br ? Em nossa análise eles representaram 29.947 domínios, ficando bem próxima das expressões com 9 letras que representaram 29.285 domínios. A partir deste ponto, a quantidade de sites cai gradativamente até as expressões com 26 letras que representa apenas 1 site.

O menor site possui apenas 1 letra em seu nome! É o http://www.n.com.br/. Ele não está sozinho, em nosso banco de dados existem mais 5 sites com apenas 1 letra, mas escolhemos apenas este como exemplo.

Já o site com o maior nome tem 26 letras, é o http://www.radiologiaclinicadecampinas.com.br/, o único com 26 letras em nosso banco de dados.

Abaixo postamos o gráfico de nossa análise, nele você pode entender como se distribuem os domínios com relação ao tamanho de seu nome.

dominios

Obrigado pela leitura e até a próxima !

310.000 domínios disponíveis para consulta

Thursday, March 27th, 2008

A partir de hoje estão disponíveis para consulta 310.212 sites brasileiros representando 26.51% do total de domínios .com.br existentes (segundo estatíscas da registro br atualmente existem 1.170.217 domínios .com.br registrados). Estamos apreciando estes números pois mostram que o crawler está funcionando de modo esperado.

Para o mês seguinte anunciamos novidades: O crawler passará a indexar não só a home page mas também as páginas internas dos sites aumentando em muito o resultado e qualidade das buscas. A previsão para o próximo mês é que teremos mais de 360.000 domínios cadastrados e algums milhões de URL’s :-).

Esperamos poder cumprir com essa promessa, continue acompanhando nosso blog para saber se estamos conseguindo cumprir nosso objetivo.

Aproveitem o resultados das buscas e nos enviem sugestões !

Mais de 50.000 novos sites disponíveis

Wednesday, February 27th, 2008

Exatamente um mês após a última atualização do banco de dados radarbit nosso crawler já indexou mais de 50.000 novos sites. Neste momento contamos com 260,259 sites indexados, ou seja, 22.82% de todos os sites de domínio “.com.br” existentes no Brasil.

O registro mais antigo foi atualizado a menos de 1 mês. Para se ter uma idéia para manter a idade de atualização dos sites em níveis baixos nosso crawler deverá ser capaz de atualizar pelo menos 8.676 sites por dia, e essa taxa deve aumentar a medida que o banco de dados cresce.

Estamos trabalhando para desenvolver um crawler rápido e robusto oferecendo resultados de busca confiáveis e sempre atualizados.

Esperamos que nossos visitantes tenham uma boa experência de busca em nosso site.

Banco de dados atualizado

Sunday, January 27th, 2008

O banco de dados do buscador radarbit foi completamente atualizado. Conforme o post de 19 de janeiro de 2008 o nosso crawler visitou todos os sites da nossa base, atualizou sites existentes, removeu os sites que não existem mais e adicionou novos sites encontrados. Na data de hoje estamos com 210.288 domínios brasileiros cadastrados, o registro mais antigo foi atualizado há apenas 6 dias e nosso crawler continuará percorrendo a internet em busca de novidades em regime 24×7.

As estísticas da registro br apontam que, na data de hoje, existam 1.140.182 domínios .com.br ativos, ou seja, nosso sistema conhece 210.288 deles, sendo então 18,44% do total. Esperamos em breve ter 20% dos sites em nosso banco de dados, podendo dizer que 1 em cada 5 sites brasileiros pode ser encontrado no buscador radarbit, e aumentar este número cada vez mais.

Thread adicionada

Tuesday, January 22nd, 2008

Na data de hoje foi aberta uma thread no crawler, agora a capacidade de indexação foi dobrada em relação a versão anterior do crawler.

Assim que desafios técnicos forem solucionados será implementada uma quantidade configurável de threads, isso significa que o crawler poderá indexar em “várias frentes” tornando o processo mais rápido.

Se um único processo do crawler for executado no servidor, enquanto este aguarda uma resposta do site o link fica ocioso havendo assim uma sub-utilização do link de acesso a internet. Como os computadores atuais são dotados de grande capacidade de processamento e memória pode-se abrir quantas threads o link suportar, tornando o processo de indexação mais rápido e eficiente.

Correção no crawler

Sunday, January 20th, 2008

Na data de hoje foi feita uma correção no crawler na área de timeout.

Durante o processo de varredura dos sites o link de conexão com a internet pode cair por causa de problemas técnicos no provedor de acesso a internet, isto pode fazer com que o crawler interprete que o site em questão está fora do ar, podendo o mesmo ser excluído do banco de dados de modo indevido.

Para prevenir esses erros existe um processo chamado timeout que faz com que se um site não responda ou o link de internet está fora do ar, o crawler apenas o marque como offline, na próxima vez que o crawler varrer o site ele deve receber o estado de “OK” caso receba “offline” pela segunda vez o site será removido do banco de dados.

O site agora tem duas chances de ser acessado antes de ser removido do banco de dados, minimizando assim as remoções indevidas.

Após a correção desse subsistema o crawler funciona de modo mais seguro, identificando com mais precisão os casos reais de sites offline.

Atualização de Banco de Dados

Saturday, January 19th, 2008

Atualmente (19 de janeiro de 2008) contamos com um banco de dados com 204.929 domínios brasileiros cadastrados, porém essas informações foram atualizadas em meados de outubro de 2007, desta data para cá muita coisa deve ter mudado, alguns domínios podem não existir mais, outros novos domínios surgiram e a maioria deles devem ter sofrido atualizações de conteúdo.

Para oferecermos um resultados de busca baseado em informações atualizadas vamos colocar nosso crawler para percorrer todos esses sites em busca de novidades.