- 命令行界面
- 支持输出 DOCX 和 TXT 格式
- 可自定义输出路径
- ...................
有建议或 bug 可以提 issue.
命令行界面使用命令行 UI 库Rich编写。
界面样例:
点击 Code - Download ZIP,下载后解压缩得到文件夹,建议重命名为jjwxc-crawler
- Python 3.9.15
- Windows
安装 Python 后,第一步,打开所在目录的命令行,输入以下命令创建并激活虚拟环境
python -m venv venv # 创建名为venv的Python虚拟环境
venv\Scripts\activate # Windows系统下激活虚拟环境venv
在Linux系统下,
chmod +x venv/bin/activate
source venv/bin/activate
此时命令行前应显示有(venv)
,表示当前已激活虚拟环境venv
第二步,在虚拟环境内安装 Scrapy 和其他依赖
pip install -r requirements.txt
# 进入程序所在目录
cd jjcrawler
# 运行爬虫命令,其中ID为书号
scrapy crawl novel -a id=ID
# 例如,我要下载书号为2的测试文,则运行以下命令行
scrapy crawl novel -a id=2
下载章节将保存至根目录下的 novels 文件夹
默认输出格式为.docx,如果要更改为.txt 格式输出,可编辑\jjcrawler\jjcrawler\spiders\config.py
中参数
# docx | txt
format = "txt"
下载一整页的小说
# 无CP-女主视角-仙侠修真标签
scrapy crawl novellist -a xx=5 -a mainview=2 -a bq=68
# 无CP-女主视角-古色古香-仙侠类型
scrapy crawl novellist -a xx=5 -a mainview=2 -a sd=2 -a lx=4
# 衍生-百合-武侠
scrapy crawl novellist -a yc=2 -a xx=3 -a bq=11
# 标题含有"神雕"的百合小说 (Experiental option, still in development)
scrapy crawl novellist -a title=神雕 -a xx=3