前幾天看到無痛爬梳自己來,用 Google Spreadsheet 爬取網頁資料
就想之前的Kimono
但現在官網要收掉這個服務
不過有官網友留下kimono desktop edition 離線版程式使用(只有MAC和Windows)
目前不知道有沒有辦法移植到Linux上面玩
kimonolabs.com | kimono for desktop | ||
---|---|---|---|
Create APIs with Chrome Ext | v | ||
Create APIs with Bookmarklet | v | v | |
Manage and configure APIs | v | v | |
Run APIs manually | v | ||
Run APIs on a schedule | v | ||
Cloud hosted API endpoints | v (w/ Firebase) | ||
Crawling & Pagination | v | v | |
Get data behind a login | v | v | |
Kimono Apps / Blocks | v | ||
Google sheets integration | v | ||
Webhooks & Email alerts | v | ||
Save scraped data to file | v | v | |
CSV & RSS output | v | v |
當然離線版沒有這麼多功能,可惜沒有排程可以用
但發現他程式透過NodeJS去寫,好像可以透過API方式去實作
在此先記錄一下筆記
首先,安裝kimono desktop edition 和chrome extension
相關套件網路就一堆,我就先偷懶拉o.<
不會寫程式也能爬,Kimono 幫你把網站變資料
API建立好,開kimono desktop edition可以看到剛剛家加入的任務
按下Start Crawl 可執行爬蟲
後來我發現kimono desktop edition可以開啟開發者工具
發現執行Web API可以跑爬蟲
看來排程執行爬蟲指日可待XD
1
2
3
4
5
6
7
8
9
10
11
12
13POST /ws/startcrawl/ HTTP/1.1
Host: localhost:3000
Origin: http://localhost:3000
X-DevTools-Emulate-Network-Conditions-Client-Id: 93A1E1D6-2642-4DD4-84B2-5BAE0E75261C
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) kimono-desktop/1.0.5 Chrome/45.0.2454.85 Electron/0.35.4 Safari/537.36
Content-Type: application/json;charset=UTF-8
Referer: http://localhost:3000/apis/b8ed4oy2
Accept-Encoding: gzip, deflate
Accept-Language: zh-TW
Cache-Control: no-cache
Postman-Token: 0b770020-6467-cff2-5923-6300dc330def
{"apiid":"b8ed4oy2"}
看爬蟲API任務的狀態WEB API