# FilmSpider

**Repository Path**: nbstart/FilmSpider

## Basic Information

- **Project Name**: FilmSpider
- **Description**: 基于java的爬虫系统，可爬取国内主流视频网站的视频数据，目前支持爬取豆瓣、猫眼、IMDB、百度百科、优酷、电视猫数据。
- **Primary Language**: Java
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 13
- **Forks**: 8
- **Created**: 2020-08-17
- **Last Updated**: 2025-12-05

## Categories & Tags

**Categories**: spider

**Tags**: None

## README

# FilmSpider

#### 介绍
>基于java的爬虫系统，可爬取国内主流视频网站的视频数据，目前支持爬取豆瓣、猫眼、IMDB、百度百科、优酷、电视猫数据。

#### 软件架构
软件架构说明


#### 安装教程

1. git clone https://gitee.com/nbstart/FilmSpider/new/master.git
2.  xxxx
3.  xxxx

#### 使用说明

*  新增spider:
>   ##### 1、在spider类下面新建一个类，继承BaseSpider
>   ## 注意 新增的spider需要在构造函数中设置spider名称
>   
>   ##### 2、实现`getContentId`和`getFilmInfo`两个接口，getContentId返回地址转换结果，比如输入电影名称返回电影的详情页，`getFilmInfo`返回爬取到的详情信息
    
* 新建爬虫引擎 
>   ##### 1、在excel包下面新建excel解析类.分别创建`excelReader`和`excelWriter`
>   ##### 2、实现reader和writer要求的接口，`reader.readRowFromExcel`接口主要用于解析需要读取那些行,并解析成`RawFromExcel`返回;  writer的`initExcelHeader`用于初始化需要保存的excel文件头，`writeRow`将某一行写入excel,`trans2Excel`用户类型转换

#### 参与贡献

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request


#### 码云特技

1.  使用 Readme\_XXX.md 来支持不同的语言，例如 Readme\_en.md, Readme\_zh.md
2.  码云官方博客 [blog.gitee.com](https://blog.gitee.com)
3.  你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解码云上的优秀开源项目
4.  [GVP](https://gitee.com/gvp) 全称是码云最有价值开源项目，是码云综合评定出的优秀开源项目
5.  码云官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help)
6.  码云封面人物是一档用来展示码云会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)