Un rastrejador potent i fàcil d’utilitzar implementat a NodeJS i React

Bloc

Un rastrejador potent i fàcil d’utilitzar implementat a NodeJS i React

Un rastrejador potent i fàcil d’utilitzar implementat a NodeJS i React

Crawler web

Què fa WebCrawler?

Raspeu el web segons:

  • L'URL per començar a raspar.

  • La profunditat màxima per arrossegar-se des de l'URL d'inici.

  • El nombre màxim de pàgines per a tota la tasca de rascar.

    què és l'e-coin

    (Deixeu de rastrejar un treball quan arribi a maxDepth o maxPages, el que passi primer).

Totes les pàgines rascades tenen:

  1. title - El document.title de la pàgina.
  2. profunditat: es raspa la profunditat actual.
  3. url: l'URL que s'ha raspat.
  4. enllaços: tots els hrefs de les etiquetes d'ancoratge de la pàgina.

Arquitectura:

diagrama

Nou flux de treball de raspa

diagrama

cadena de Python regex dividida

Començament ràpid:

  1. executar git clone https://github.com/PerachBD/WebCrawler.git
  2. executar npm i && npm start

Tecnolegis:

  • NodeJS
  • Reacciona
  • Express
  • Emmagatzematge web

Paquets principals:

  • Socket.IO - permet la comunicació basada en esdeveniments bidireccionals en temps real.
  • Lowdb: petita base de dades JSON per a Node, Electron i el navegador. Desenvolupat per Lodash.
  • node-html-parser - Fast HTML Parser és un analitzador HTML molt ràpid. Que generarà un arbre DOM simplificat, amb suport bàsic per a la consulta d’elements.

Per a futures expansions:

  1. Estalvieu temps de funcionament per a treballs de raspa superposats.
  2. Càlcul del nombre de treballadors, de forma dinàmica en funció de les càrregues i del nombre de treballs de raspall a realitzar.
  3. Afegiu una opció per suprimir, posar en pausa i continuar la tasca de rascar

Instantànies:

imatge imatge imatge

Detalls de la descàrrega:

Autor: PerachBD

on comprar miota

Codi font: https://github.com/PerachBD/WebCrawler

#nodejs #node #javascript #react