WebHarvy是一款網頁數據抓取工具,軟件可以提取網頁里的文本及圖片,輸入網址即可打開,默認使用內部瀏覽器,支持擴展分析,可以自動獲取類似鏈接的列表,軟件界面直觀操作簡單。
功能介紹
智能識別模式
WebHarvy自動識別網頁中出現的數據模式。所以,如果你需要從一個網頁刮項目(姓名,地址,電子郵件,價格等)的列表,你不需要做任何額外的配置。如果數據重復,WebHarvy會自動刮。
導出捕獲的數據
可以保存從各種格式的網頁中提取的數據。 WebHarvy網站刮板的當前版本允許你導出的刮數據作為XML,CSV,JSON或TSV文件。您還可以刮下數據導出到一個SQL數據庫。
從多個頁面提取
通常網頁顯示數據,如在多個頁面中的產品目錄。 WebHarvy可以自動抓取并從多個網頁中提取數據。只是指出了“鏈接到下一頁'和WebHarvy網站刮板將自動刮從所有頁面的數據。
直觀化的操作界面
WebHarvy是一個可視化的網頁提取工具。其實完全沒有必要編寫任何腳本或代碼用來提取數據。使用webharvy的內置瀏覽器瀏覽網頁。您可以選擇用鼠標點擊來提取數據。它是那么容易!
基于關鍵字的提取
基于關鍵字的提取可讓您捕捉從搜索結果頁面輸入關鍵字的列表數據。您創建的配置將被自動重復所有給定輸入關鍵字,而挖掘的數據。可以指定任意數量的輸入關鍵字
提取分類
WebHarvy網站刮板允許您從一個鏈接列表,從而導致一個網站內的相似頁面抽取數據。這使您可以使用一個單一的配置刮網站內的類別或小節。
使用正則表達式提取
WebHarvy可以應用正則表達式(正則表達式)在文本或網頁的HTML源代碼,并提取去匹配的部分。這種強大的技術為您提供了更多的靈活性,同時拼搶的數據。
軟件特色
WebHarvy是一個視覺網絡刮板。*不需要編寫任何腳本或代碼來抓取數據。您將使用WebHarvy的內置瀏覽器瀏覽網頁。您可以選擇要點擊的數據。這很容易!
WebHarvy自動識別網頁中發生的數據模式。因此,如果您需要從網頁上刮取項目列表(名稱,地址,電子郵件,價格等),則無需執行任何其他配置。如果數據重復,WebHarvy會自動刪除它。
您可以以多種格式保存從網頁中提取的數據。WebHarvy Web Scraper的當前版本允許您將抓取的數據導出為Excel,XML,CSV,JSON或TSV文件。您也可以將抓取的數據導出到SQL數據庫。
通常,網頁在多個頁面上顯示產品列表等數據。WebHarvy可以自動抓取并從多個頁面提取數據。只需指出“鏈接到下一頁”,WebHarvy Web Scraper就會自動從所有頁面中抓取數據。