亚洲国产AV一区二区三区久久_乱人妻中文字幕视频_91麻豆精品国产一级_精品国产欧美另类一区

您的當前位置: 首頁>>宜豐商學院>>宜豐SEO優(yōu)化

宜豐各大主流編程語言常用爬蟲框架以及優(yōu)劣分析

瀏覽量(65536) 時間:2020-09-07

      目前市場上爬蟲框架有很多,不同語言不同類型的爬蟲框架都有,然而在開發(fā)預研的時候?qū)τ谶x擇那種

    框架對于很多開發(fā)者來說尤為頭疼;

    本篇主要總結(jié)一下市場上主流的開發(fā)語言中有哪些主流的爬蟲框架,以及爬蟲框架的優(yōu)劣;希望在對你在選擇合適爬蟲框架中有所幫助。

    一、主流語言爬蟲框架列表:

主流語言爬蟲框架列表

    二、主流爬蟲框架簡介

    1、Java爬蟲框架

Java爬蟲框架

    1.1、Apache Nutch2

    鏈接地址:nutch.apache.org

    Nutch 是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

    Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:

    * 每個月取幾十億網(wǎng)頁

    * 為這些網(wǎng)頁維護一個索引

    * 對索引文件進行每秒上千次的搜索

    Ⅰ、對索引文件進行每秒上千次的搜索

    Ⅱ、提供高質(zhì)量的搜索結(jié)果

    簡單來說Nutch支持分布式,可以通過配置網(wǎng)站地址、規(guī)則、以及采集的深度(通用爬蟲或全網(wǎng)爬蟲)對網(wǎng)站進行采集,并提供了全文檢索功能,可以對采集下來的海量數(shù)據(jù)進行全文檢索;假如您想完成對站點所有內(nèi)容進行采集,且不在乎采集和解析精度(不對特定頁面特定字段內(nèi)容采集)的需求,建議你使用Apache Nutch,假如您想對站點的指定內(nèi)容板塊指定字段采集,建議您使用垂直爬蟲較為靈活。

    1.2、webmgaic(推薦)

    鏈接地址:webmagic.io

    WebMagic是一個簡單靈活的Java爬蟲框架?;赪ebMagic,你可以快速開發(fā)出一個高效、易維護的爬蟲。

    特性:簡單的API,可快速上手;模塊化的結(jié)構(gòu),可輕松擴展;提供多線程和分布式支持

    1.3、Heritrix

    鏈接地址:crawler.archive.org

    Heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡爬蟲,用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶實現(xiàn)自己的抓取邏輯。

    1.4、WebCollector

    鏈接地址:github.com/CrawlScript/WebCollector

    WebCollector是一個無須配置、便于二次開發(fā)的JAVA爬蟲框架(內(nèi)核),它提供精簡的的API,只需少量代碼即可實現(xiàn)一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

    1.5、crawler4j

    鏈接地址::github.com/yasserg/crawler4j

    crawler4j是一款基于Java的輕量級單機開源爬蟲框架,最大的一個特點就是簡單。另外也支持多線程、支持代理、可以過濾重復URL

    基本上從加載jar到工程里面 通過修改示例的代碼就可以簡單的實現(xiàn)一個爬蟲的全部功能,而這一切動作加起來都不需要超過半個小時。

    1.6、Spiderman

    鏈接地址:m.gitee.com/l-weiwei/spiderman

    Spiderman 是一個Java開源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數(shù)據(jù)。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現(xiàn)數(shù)據(jù)抽取。

    1.7、eimiCrawler

    鏈接地址:seimi.wanghaomiao.cn

    一個敏捷的,獨立部署的,支持分布式的Java爬蟲框架;

    SeimiCrawler是一個強大的,高效敏捷的,支持分布式的爬蟲開發(fā)框架,希望能在最大程度上降低新手開發(fā)一個可用性高且性能不差的爬蟲系統(tǒng)的門檻,以及提升開發(fā)爬蟲系統(tǒng)的開發(fā)效率。在SeimiCrawler的世界里,絕大多數(shù)人只需關心去寫抓取的業(yè)務邏輯就夠了,其余的Seimi幫你搞定。設計思想上SeimiCrawler受Python的爬蟲框架Scrapy啟發(fā)很大,同時融合了Java語言本身特點與Spring的特性,并希望在國內(nèi)更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默認的HTML解析器是JsoupXpath,默認解析提取HTML數(shù)據(jù)工作均使用XPath來完成(當然,數(shù)據(jù)處理亦可以自行選擇其他解析器)。

    1.8、jsoup

    鏈接地址:jsoup.org

    jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

    2、Python爬蟲框架

Python爬蟲框架

    2.1、scrapy (推薦)

    鏈接地址:scrapy.org

    Scrapy,Python開發(fā)的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。

    Scrapy吸引人的地方在于它是一個框架,任何人都可以根據(jù)需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。

    Scrap,是碎片的意思,這個Python的爬蟲框架叫Scrapy。

    2.2、Crawley

    鏈接地址:project.crawley-cloud.com

    高速爬取對應網(wǎng)站的內(nèi)容,支持關系和非關系數(shù)據(jù)庫,數(shù)據(jù)可以導出為JSON、XML等

    2.3、Portia

    鏈接地址:scrapinghub.com/portia

    Portia 是一個用 Python 編寫無需任何編程知識,就能可視爬取網(wǎng)站數(shù)據(jù)的開源工具。無需下載或安裝任何東西,因為,Portia 是運行在您的 Web 瀏覽器中。

    Portia 是 scrapyhub 開源的一款可視化爬蟲規(guī)則編寫工具。Portia 提供了可視化的 Web 頁面,只需通過簡單點擊,標注頁面上需提取的相應數(shù)據(jù),無需任何編程知識即可完成爬取規(guī)則的開發(fā)。這些規(guī)則還可在 Scrapy 中使用,用于抓取頁面。

    2.4、PySpider

    鏈接地址:www.pyspider.cn

    PySpider:一個國人編寫的強大的網(wǎng)絡爬蟲系統(tǒng)并帶有強大的WebUI。采用Python語言編寫,分布式架構(gòu),支持多種數(shù)據(jù)庫后端,強大的WebUI支持腳本編輯器,任務監(jiān)視器,項目管理器以及結(jié)果查看器。

    2.5、grab

    鏈接地址:www.imscraping.ninja/posts/introducing-grab-framework-python-webscraping/

    網(wǎng)絡爬蟲框架(基于pycurl/multicur)。

    2.6、cola

    鏈接地址:ithub.com/chineking/cola

    一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高,不過值得借鑒。

    3、PHP爬蟲框架

PHP爬蟲框架

    3.1、phpspider

    鏈接地址:github.com/owner888/phpspider

    phpspider是一個爬蟲開發(fā)框架。使用本框架,你不用了解爬蟲的底層技術實現(xiàn),爬蟲被網(wǎng)站屏蔽、有些網(wǎng)站需要登錄或驗證碼識別才能爬取等問題。簡單幾行PHP代碼,就可以創(chuàng)建自己的爬蟲,利用框架封裝的多進程Worker類庫,代碼更簡潔,執(zhí)行效率更高速度更快。

    3.2、Beanbun

    鏈接地址:www.beanbun.org/#/

    Beanbun 是用 PHP 編寫的多進程網(wǎng)絡爬蟲框架,具有良好的開放性、高可擴展性。

    支持守護進程與普通兩種模式(守護進程模式只支持 Linux 宜豐服務器

    默認使用 Guzzle 進行爬取

    支持分布式

    支持內(nèi)存、Redis 等多種隊列方式

    支持自定義URI過濾

    支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式

    遵循 PSR-4 標準

    爬取網(wǎng)頁分為多步,每步均支持自定義動作(如添加代理、修改 user-agent 等)

    靈活的擴展機制,可方便的為框架制作插件:自定義隊列、自定義爬取方式…

    3.3、PHPCrawl

    鏈接地址:phpcrawl.cuab.de

    PHPCrawl是一個PHP開源的Web檢索蜘蛛(爬蟲)類庫。PHPCrawl抓取工具“ Spider ”的網(wǎng)站,并提供一切有關網(wǎng)頁,鏈接,文件等信息。

    PHPCrawl povides可以選擇性的指定的爬蟲的行為,比如喜歡網(wǎng)址、內(nèi)容類型,過濾器、 cookie的處理等方式。

    4、c#爬蟲框架

c#爬蟲框架

    4.1、DotnetSpider

    鏈接地址:www.dotnetspider.com

    DotnetSpider這是國人開源的一個跨平臺、高性能、輕量級的爬蟲軟件,采用 C# 開發(fā)。目前是.Net開源爬蟲最為優(yōu)秀的爬蟲之一。

    4.2、NWebCrawler

    鏈接地址:nwebcrawler.codeplex.com

    NWebCrawler是一款開源的C#網(wǎng)絡爬蟲程序更多NWebCrawler

    4.3、SmartSpider

    鏈接地址:www.softpedia.com/get/Internet/Download-Managers/SmartSpider.shtml

    SmartSpider爬蟲引擎內(nèi)核版,全新的設計理念,真正的極簡版本。

    4.4、Abot

    鏈接地址:github.com/sjdirect/abot

    Abot是一個開源的.net爬蟲,速度快,易于使用和擴展。

    4.5、xNet

    鏈接地址:github.com/X-rus/xNet

    這個一個俄國牛人寫的開源工具,為啥說他強悍了,因為他將所有Http協(xié)議的底層都實現(xiàn)了一遍,這有啥好處?只要你是寫爬蟲的,都會遇到一個讓人抓狂的問題,就是明明知道自己Http請求頭跟瀏覽器一模一樣了,為啥還會獲取不到自己想要的數(shù)據(jù)。這時你如果使用HttpWebReaquest,你只能調(diào)試到GetRespone,底層的字節(jié)流是調(diào)試不到了。所以必須得有個更深入的底層組件,方便自己調(diào)試。

    4.6、AngleSharp

    鏈接地址:anglesharp.github.io

    解析HTML利器AngleSharp介紹解析HTML利器AngleSharp介紹AngleSharp是基于.NET(C#)開發(fā)的專門為解析xHTML源碼的DLL組件。

    4.7、HtmlAgilityPack

    鏈接地址:htmlagilitypack.codeplex.com

    HtmlAgilityPack 是 .NET 下的一個 HTML 解析類庫。支持用 XPath 來解析 HTML 。命名空間: HtmlAgilityPack

    4.8、CSQuery

    鏈接地址:github.com/jamietre/CsQuery

    CsQuery 犀利的html代碼分析庫,像jq一樣用c#處理html

    5、C/C++爬蟲框架

C/C++爬蟲框架

    open-source-search-engine

    鏈接地址:github.com/gigablast/open-source-search-engine

    基于C/C++開發(fā)的網(wǎng)絡爬蟲和搜索引擎.

    5.1、Cobweb

    鏈接地址:github.com/stewartmckee/cobweb

    非常靈活,易于擴展的網(wǎng)絡爬蟲,可以單點部署使用.

    5.2、upton

    鏈接地址:github.com/propublica/upton

    一個易于上手的爬蟲框架集合,支持CSS選擇器.

    5.3、wombat

    鏈接地址:github.com/felipecsl/wombat

    基于Ruby天然的支持DSL的網(wǎng)絡爬蟲,易于提取網(wǎng)頁正文數(shù)據(jù).

    5.4、Spidr

    鏈接地址:github.com/postmodern/spidr

    全站數(shù)據(jù)采集,支持無限的網(wǎng)站鏈接地址采集.

    5.5、Larbin

    鏈接地址:larbin.sourceforge.net/download.html

    larbin是一種開源的網(wǎng)絡爬蟲/網(wǎng)絡蜘蛛,由法國的年輕人Sébastien Ailleret獨立開發(fā),用c++語言實現(xiàn)。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。 Larbin只是一個爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。

    larbin最初的設計也是依據(jù)設計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網(wǎng)頁,實在是非常高效。

    利用larbin,我們可以輕易的獲取/確定單個網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個網(wǎng)站;也可以用它建立url 列表群,例如針對所有的網(wǎng)頁進行 url retrive后,進行xml的聯(lián)結(jié)的獲取。或者是 mp3,或者定制larbin,可以作為搜索引擎的信息的來源。


以上文章來源于網(wǎng)絡,如有侵權(quán)請聯(lián)系創(chuàng)一網(wǎng)的客服處理。謝謝!