攀附Ithome的Scrapy爬蟲。
使用環境為python 2.7+
安裝Python套件
pip install -r requirements.txt
到sql_schema目錄,使用init.sql初始化SQL。
$ mysql -u root -p crawler < init.sql
假如這個過程中有發生錯誤,請先進入SQL中並輸入指令:
$ FLUSH PRIVILEGES;
然後再重新執行一次。
若要重設SQL,到sql_schema目錄,使用reset.sql刪除SQL。
$ mysql -u root -p crawler < reset.sql
到es_schema目錄,使用 init.py建置開發環境的elasticsearch。
$ python init.py -d
若要重設es,到es_schema目錄,使用reset.py刪除建立的elasticsearch。
$ python reset.py -d
進入根目錄,執行下列命令啟動scrapy
$ scrapy crawl ithome -a start=1 -a end=5 -a env=development
start,end為爬取頁數(例如範例為爬1-5頁), env為執行環境選擇(包含:development), 此外start,end, env可不輸入,如下所示,如此所有頁面皆會爬取,並選擇執行環境為development。
$ scrapy crawl ithome
scrapy elasticsearch mysql-connector-python