Correção no crawler

Na data de hoje foi feita uma correção no crawler na área de timeout.

Durante o processo de varredura dos sites o link de conexão com a internet pode cair por causa de problemas técnicos no provedor de acesso a internet, isto pode fazer com que o crawler interprete que o site em questão está fora do ar, podendo o mesmo ser excluído do banco de dados de modo indevido.

Para prevenir esses erros existe um processo chamado timeout que faz com que se um site não responda ou o link de internet está fora do ar, o crawler apenas o marque como offline, na próxima vez que o crawler varrer o site ele deve receber o estado de “OK” caso receba “offline” pela segunda vez o site será removido do banco de dados.

O site agora tem duas chances de ser acessado antes de ser removido do banco de dados, minimizando assim as remoções indevidas.

Após a correção desse subsistema o crawler funciona de modo mais seguro, identificando com mais precisão os casos reais de sites offline.

One Response to “Correção no crawler”

  1. André Says:

    Toma tempo para checar merda crawler

Leave a Reply