Skip to content

Latest commit

 

History

History
21 lines (13 loc) · 1.29 KB

README.md

File metadata and controls

21 lines (13 loc) · 1.29 KB

基于NodeJs + Puppeteer + Mysql的电商数据爬虫

Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库。可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。

本项目当前只对天猫商品详情数据进行爬虫,后期会扩展淘宝登录后搜索爬虫,欢迎继续关注。

公众号

配置文件

配置文件位于 src/config 目录下,db.js是mysql配置,db.sql是爬虫数据保存表的创建sql,tmall.js是针对天猫商品详情的字段配置和网页解析函数。

用户可在tmall.jsurls属性中配置需要爬取的url,将天猫商品详情的url复制进去即可。

运行

  1. 在本地目录执行 git clone https://github.com/enginecode/crawler-puppeteer.git
  2. 创建mysql数据库,可命名为cheese,然后执行db.sql即可;
  3. 安装nodejs;
  4. cmdpowershell环境下执行npm i -S进行依赖安装,安装过程中可能会因为网络问题下载失败,可执行npm install puppeteer --ignore-scripts 跳过chromuin的安装;
  5. 执行 node index.js,如果用户希望数据输出到文件,可执行 node index.js > data.log