# pyrailgun **Repository Path**: rigarch/pyrailgun ## Basic Information - **Project Name**: pyrailgun - **Description**: Simple And Easy Python Crawl Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-01-18 - **Last Updated**: 2022-01-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 欢迎大家给我投简历! zhongwei.bzw@taobao.com 宇宙第一的淘宝搜索欢迎你的探索! ------- NEED Python2.7 功能 * 支持从[json](https://github.com/princehaku/pyrailgun/blob/master/demo/tour/basic.json)文件读取抓取任务 * 支持 python字典数据源方式 定义抓取任务 * [通配符和多页码抓取](https://github.com/princehaku/pyrailgun/wiki/用通配符抓取多页码数据) * [参数暂存和传递 深度抓取](https://github.com/princehaku/pyrailgun/wiki/参数传递) * [css选择器](https://github.com/princehaku/pyrailgun/wiki/css选择器) * [使用requests抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用requests抓取网页) * [使用webkit内核抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用webkit内核抓取网页) 安装 * [从pip安装] (https://pypi.python.org/pypi/pyrailgun) `pip install pyrailgun` * 源码安装 `python setup.py install` 语法 * [json对象说明](https://github.com/princehaku/pyrailgun/wiki/json%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E) 例子 * [快速入门] (https://github.com/princehaku/pyrailgun/wiki/简单使用说明) * [全功能简单例子] (https://github.com/princehaku/pyrailgun/blob/master/demo/tour/) * [读取输入变量] (https://github.com/princehaku/pyrailgun/blob/master/demo/userinput/) * [WebKit抓取] (https://github.com/princehaku/pyrailgun/blob/master/demo/webkit/) * [在没有X的服务器上运行webkit内核抓取](https://github.com/princehaku/pyrailgun/wiki/在没有X的服务器上运行webkit内核抓取) 其他 * python2.7 是必须的 * [_pages](https://github.com/princehaku/pyrailgun/wiki/_pages) 更新 * 0.25 fix 一个crash问题 * 0.24 受版权限制,替换webbroser为自己写的版本 去除yaml的支持