Web Crawler

        Web Crawler是德勤TAC自主开发的企业数据统一采集系统,完整地实现了生产者消费者模型。通过定时触发机制抓取公开的、权威的企业关键信息并实时记录分析汇总,形成行业报告。

适用于: 企业分析

工作原理

经典案例1

流程:

  • 1. 手动模拟流程,查看源码,分析URL,确定流程层级。
  • 2. 确定验证码实现方式,考虑解决方案:人工/自动/人工自动。
  • 3. 编码一步一步实现信息抓取。

难点:

需要验证码;网站按行政区分别搭建系统,流程基本一致,需要可以方便调整的系统。

结果:

实现了一个省份的数据获取。

经典案例2

难点:

  • 1. 直接访问,给出的是压缩的Js代码,需要浏览器解析执行并Set Cookie后才能获得下一步的访问地址。
  • 2. 获取的内容页面也是Js渲染,需要使用Splash插件真实渲染后才能获取内容。
  • 3. 可能还有时间/Ip地址等多重防爬机制。

结果:

最终抓取成功!

经典案例3

需求:

根据股票代码获取最新的公告信息,存档直接获取JSON数据解析。

结果:

成功实现并部署,每天爬取一次,运行良好。