# FilmSpider **Repository Path**: nbstart/FilmSpider ## Basic Information - **Project Name**: FilmSpider - **Description**: 基于java的爬虫系统,可爬取国内主流视频网站的视频数据,目前支持爬取豆瓣、猫眼、IMDB、百度百科、优酷、电视猫数据。 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 13 - **Forks**: 8 - **Created**: 2020-08-17 - **Last Updated**: 2025-12-05 ## Categories & Tags **Categories**: spider **Tags**: None ## README # FilmSpider #### 介绍 >基于java的爬虫系统,可爬取国内主流视频网站的视频数据,目前支持爬取豆瓣、猫眼、IMDB、百度百科、优酷、电视猫数据。 #### 软件架构 软件架构说明 #### 安装教程 1. git clone https://gitee.com/nbstart/FilmSpider/new/master.git 2. xxxx 3. xxxx #### 使用说明 * 新增spider: > ##### 1、在spider类下面新建一个类,继承BaseSpider > ## 注意 新增的spider需要在构造函数中设置spider名称 > > ##### 2、实现`getContentId`和`getFilmInfo`两个接口,getContentId返回地址转换结果,比如输入电影名称返回电影的详情页,`getFilmInfo`返回爬取到的详情信息 * 新建爬虫引擎 > ##### 1、在excel包下面新建excel解析类.分别创建`excelReader`和`excelWriter` > ##### 2、实现reader和writer要求的接口,`reader.readRowFromExcel`接口主要用于解析需要读取那些行,并解析成`RawFromExcel`返回; writer的`initExcelHeader`用于初始化需要保存的excel文件头,`writeRow`将某一行写入excel,`trans2Excel`用户类型转换 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 码云特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. 码云官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解码云上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目 5. 码云官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. 码云封面人物是一档用来展示码云会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)