MAC0416/5855-2009: Executável

Executável do web crawler. Para rodar, use:

java -jar WeCrawler.jar url regexp maxNumberUrls maxDepth delayBetweenUrls

onde:
url: url por onde o crawler vai começar (seed)
regexp: expressão que indica se o conteúdo de uma URL é relevante
maxNumberUrls: quantidade máxima de URLs a serem visitadas
maxDepth: profundidade máxima de URLs a serem visitadas
delayBetweenUrls: tempo entre requisições (em milisegundos), para evitar bloqueios de IP nos hosts visitados

Os resultados aparecem nos arquivos crawl.txt e crawlStatistics.txt.

Em caso de dúvidas é só entrar em contato.

Abraços,
Mauricio Aniche
Mauricio De Diana

WebCrawler.jar