# html2md
**Repository Path**: renneseme/html2md
## Basic Information
- **Project Name**: html2md
- **Description**: 将一个目录下的html文件转成md文件,可以用于将HTML文件内容转成结构化数据,提供给RAG做检索生成
- **Primary Language**: TypeScript
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-04-08
- **Last Updated**: 2025-04-08
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# HTML 转 Markdown 工具
## 功能描述
本工具用于将HTML文件或目录递归转换为Markdown格式,支持以下功能:
- 递归转换整个HTML目录结构
- 转换单个HTML文件
- 直接转换HTML文本内容
- 自动处理HTML中的相对路径链接(将.html扩展名替换为.md)
## 安装
1. 确保已安装Node.js (v14+)
2. 克隆本项目
3. 安装依赖:
```bash
npm install
```
4. 构建项目:
```bash
npm run build
```
## 使用方法
### 转换整个目录
```bash
node dist/index.js <输入目录> <输出目录>
```
### 转换单个文件
```bash
node dist/index.js <输入文件> <输出文件>
```
### 转换HTML文本
```bash
node dist/index.js "..."
```
## 注意事项
- 工具会自动将HTML中的`.html`链接替换为`.md`链接
- 输出目录不存在时会自动创建
- 非HTML文件会被跳过
## 示例
转换整个目录:
```bash
node dist/index.js ./html_files ./markdown_output
```
转换单个文件:
```bash
node dist/index.js index.html index.md
```