Executável do web crawler. Para rodar, use:
java -jar WeCrawler.jar url regexp maxNumberUrls maxDepth delayBetweenUrls
onde:
url: url por onde o crawler vai começar (seed)
regexp: expressão que indica se o conteúdo de uma URL é relevante
maxNumberUrls: quantidade máxima de URLs a serem visitadas
maxDepth: profundidade máxima de URLs a serem visitadas
delayBetweenUrls: tempo entre requisições (em milisegundos), para evitar bloqueios de IP nos hosts visitados
Os resultados aparecem nos arquivos crawl.txt e crawlStatistics.txt.
Em caso de dúvidas é só entrar em contato.
Abraços,
Mauricio Aniche
Mauricio De Diana
Fórum