Crowl, Crawler SEO open source

Crowl est Crawler SEO, à savoir « un robot d’indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. » (source wikipédia : Robot d’indexation)

crawler seo - Crowl

La plupart des développeurs qui travaillent sur ce crawler sont des professionnels du SEO au fait des techniques de ce domaine très pointu. Ils ont utilisé des crawlers pendant des années et ils savent ce qu’il voulait de leur outil.

Crowl est un robot de base encore jeune, mais il évolue. L’objectif est de fournir des fonctionnalités et une personnalisation à la pointe de la technologie, permettant un un ajustement parfait, quelque soit le type de site Web sur lequel vous travaillez. En un mot comme en mille, le but est de fournir un outil intelligent et efficace pour tous les SEO!

Crowl est développé en Python et à recours à la bibliothèque Scrapy. Il utilise MySQL pour le stockage de données. Python est l’un des langages les plus faciles et les plus utilisés, tandis que Scrapy est une bibliothèque de scrapping bien connue et facile à utiliser. Elle exige beaucoup de réglage à adapter aux besoins de référencement. C’est l’un des problèmes que Crowl veut décomplexifier avec un un outil simple, robuste, facile à utiliser et innovant pour tout professionnel du référencement.

Aujourd’hui, Crowl est un robot d’indexation très basique: il désactive les pages, reçoit des informations, peut stocker des liens et du contenu, mais c’est à peu près tout pour le moment. Cependant, l’équipe de développement à beaucoup d’idées d’évolution : plus de données à collecter, plus d’options de sortie, une interface utilisateur, etc.

Crowl est distribué sous la GNU GPL V3. Cela signifie que vous pouvez utiliser, distribuer et modifier le code source pour une utilisation privée ou commerciale, tant que vous partagez votre code sous la même licence.

Pour résumer Crowl :

  • Fonctionne avec Windows, Mac OS et Linux
  • Agent utilisateur personnalisé
  • Extraire tous les liens et textes d’ancrage
  • Extraire le contenu de la page
  • URL illimitées
  • Arrêter et reprendre un crawl
  • Export CSV Export ou Stockage MySQL
  • Entièrement personnalisable à vos propres besoins

Source : Crowl, Crawler SEO
Licence : GNU GPL V3

Photo de Markus Spiske provenant de Pexels

Ajouter un commentaire