# NodeJS可视化爬虫工具

**Repository Path**: Serio/node-js-visual-crawler-tool

## Basic Information

- **Project Name**: NodeJS可视化爬虫工具
- **Description**: 仅供学习参考，请严格遵循法律法规
- **Primary Language**: NodeJS
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 0
- **Created**: 2022-05-10
- **Last Updated**: 2024-11-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README


## NodeJS可视化爬虫工具

### 简介

> 是为了获取大量图书的数据得到而写的爬虫练手作品。
>
> 目前界面比较简陋，主要是对Z-Library进行爬取。

### 依赖

主要是express、https、cheerio、mongodb

```json

  "scripts": {
    "start": "node ./bin/www",
    "Hstart": "nodemon ./bin/www"
  },
  "dependencies": {
    "cookie-parser": "~1.4.4",
    "debug": "~2.6.9",
    "ejs": "~2.6.1",
    "express": "~4.16.1",
    "http-errors": "~1.6.3",
    "morgan": "~1.9.1"
  },
  "devDependencies": {
    "cheerio": "^1.0.0-rc.10",
    "mongodb": "^4.5.0",
    "nodemon": "^2.0.16"
  }
```


**安装项目所需依赖**

```she
npm i
```

**快速开始**
运行项目，默认在3000端口开放，此处是使用了nodemon的热重载脚本：

```shell
npm run Hstart
```

### 实际演示

由上到下依次是：`URL`，`搜索关键词`、`最大页数`、`CSS选择器`

这里拼凑出的完整URL是: `URL`/s/`搜索关键词`/ page=`大页数`

CSS则用于选中标签

![](https://pic.rmb.bdstatic.com/bjh/8d396e1f6578da436e5c8369a9d9203a.png)

![存入到mongodb](https://pic.rmb.bdstatic.com/bjh/553de66d414c481810760fd98241f77b.png)

### 后续开发

目前只是一个demo阶段，主要作用于Z-library，后面会找时间拓展优化一下