# python 爬取豆瓣图书的书籍信息

**Repository Path**: xiuxiu__66/python

## Basic Information

- **Project Name**: python 爬取豆瓣图书的书籍信息
- **Description**: 实现python爬取豆瓣图书的信息，并将信息保存到csv文件当中，提取高频关键词生成词云
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2024-02-29
- **Last Updated**: 2024-04-10

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# python 爬取豆瓣图书的书籍信息

#### 介绍
实现python爬取豆瓣图书的信息，并将信息保存到csv文件当中，提取高频关键词生成词云

#### 软件架构
软件架构说明

IDE：PyCharm

python version:3.8



#### 使用说明

##### 1. 导入依赖库
- requests库：用于发送HTTP请求，获取网页内容。
- BeautifulSoup库：用于解析HTML网页，提取所需数据。
- pandas库：用于将数据保存为CSV文件。
- Jieba库：用于中文分词。
- wordcloud库：用于生成词云频率图。


##### 2. 设置全局变量

根据所要提取的信息设置全局变量，通过列表来将爬取到的数据进行临时存储
``` book_name = []  # 书名
book_url = []  # 书籍链接
book_star = []  # 书籍评分
book_star_people = []  # 评分人数
book_author = []  # 书籍作者
book_translater = []  # 书籍译者
book_publisher = []  # 出版社
book_pub_year = []  # 出版日期
book_price = []  # 书籍价格
book_comment = []  # 一句话评价
```
##### 3.  函数定义
定义一个get_book_info（后面简写为get）函数和一个save_to_csv（后面简写为save）函数，通过get函数爬取数据，其中在爬取数据的过程中有些特殊情况需要处理（如某本书没有一句话评价之类的），之后通过save函数将列表中的数据存储到csv文件当中。在main函数中定义一个请求头header和网站url,传到get函数当中进行数据爬取。



#### 进阶
##### 统计词频
获取书中的高频词，其中要对一些无效高频词进行去除。保存到csv文件当中。
##### 构造词云
读取csv文件，通过其出现频率来生成一定比例的词云图。

![输入图片说明](pachong/%E5%9B%BE%E7%89%871.png)