Skip to content

Latest commit

 

History

History
12 lines (12 loc) · 919 Bytes

README.md

File metadata and controls

12 lines (12 loc) · 919 Bytes

SpiderPro

这是基于flask、python、和python urllib爬虫,爬取boss直聘的网站。

前端页面采用的x-admin 2.2 版本的模板。

主要功能有以下几点:

  1、展示不同城市的最高工资和最低工资
  2、不同职位在热门城市的学历要求,工资水平。
  3、不同职位的所需要的技术栈。
  4、根据用户的输入,自动匹配合适的岗位(只要依据有:学历、工资要求、地区要求、技术要求)

待解决的问题:

  1、由于Boss直聘做了反爬虫的机制。暂时还没有办法快速绕过他的反爬机制。只能通过浏览器模拟执行来获取网页内容。
  2、即使用了浏览器driver来模拟,也偶尔会出现 需要验证,此时就要涉及到人工手动去验证
  3、多次频繁访问之后,会出现IP被封24h的情况,导致无法获取更新的数据