Skip to content

Latest commit

 

History

History
45 lines (24 loc) · 1.58 KB

README.md

File metadata and controls

45 lines (24 loc) · 1.58 KB

58同城北京地区爬取了3w6k多条数据,进行数据清洗和数据分析后进行可视化

结果展示

Image text

Image text

爬取数据展示

图片为mongoDB的可视化工具robomongo  显示3w6千条爬取数据

Image text

图片为一个count.py的运行结果  每五秒监视一次爬取结果

Image text

爬虫需要解决高频率访问问题,和效率问题的平衡,使用线程池,和IP池防止封IP。 并且解决58同城不同页面的解析。商品展示的页面可能会有好多种,如何处理。

数据清洗过程

使用jupyter notebook (python的web版的IDE) 可以更直观的观看数据做一些处理

讲有问题的数据或者不是很清楚的数据,改成自己想要的格式

Image text

Image text

Image text

Image text

Image text