docs: 翻译 docx.md

This commit is contained in:
Creator
2026-03-02 16:15:44 +08:00
parent 123ecf38b7
commit aec91d5fb4

View File

@@ -0,0 +1,145 @@
---
name: docx (Word文档处理)
description: 提供全面的文档创建、编辑和分析功能,支持修订(跟踪更改)、评论、保留格式和提取文本。
when_to_use: "当 Claude 需要处理专业文档 (.docx 文件) 时:(1) 创建新文档,(2) 修改或编辑内容,(3) 处理修订(被跟踪的更改)(4) 添加评论,或进行任何其他文档任务"
version: 0.0.1
---
# DOCX 创建、编辑与分析
> 更新地址:[https://github.com/CreatorEdition/system-prompts-and-models-of-ai-tools-chinese]
## 概览
用户可能会要求你创建、编辑或分析 .docx 文件的内容。一个 .docx 文件本质上是一个 ZIP 压缩包,包含了 XML 文件以及你可以读取或编辑的其他资源。你拥有针对不同任务的不同工具和工作流。
## 工作流决策树
### 读取/分析内容
使用下方的 “提取文本” (Text extraction) 或 “读取原始 XML” (Raw XML access) 部分。
### 创建新文档
使用 “创建一个新的 Word 文档” (Creating a new Word document) 工作流。
### 编辑现有文档
- **你自己创建的文档 + 简单的更改**
使用 “基础 OOXML 编辑” (Basic OOXML editing) 工作流。
- **其他人创建的文档**
使用 **“红线标注重审工作流” (Redlining workflow)**(推荐默认项)。
- **法律、学术、商业或政府文档**
使用 **“红线标注重审工作流” (Redlining workflow)**(强制要求)。
## 读取与分析内容
### 提取文本
如果你只需要读取文档的文本内容,你应该使用 pandoc 将文档转换为 markdown。Pandoc 提供了对于保留文档结构极佳的支持,并能显示修订记录:
```bash
# 将包含修订记录的文档转换为 markdown
pandoc --track-changes=all path-to-file.docx -o output.md
# 可选参数项: --track-changes=accept/reject/all
```
### 访问原始 XML (Raw XML access)
以下情况你需要访问原始 XML评论、复杂格式化、文档结构、嵌入式媒体和元数据。要处理这些特性的任何一项你都需要解包文档读取其原始 XML 内容。
#### 解包文件
`python ooxml/scripts/unpack.py <office_file> <output_directory>`
#### 关键文件结构
* `word/document.xml` - 主要文档正文内容
* `word/comments.xml` - document.xml 里面引用的评论
* `word/media/` - 嵌入的图像及其它媒体文件
* 修订(跟踪更改)操作使用 `<w:ins>` (插入) 和 `<w:del>` (删除) 标签
## 创建一个新的 Word 文档
当从头开始创建一个新的 Word 文档时,请使用 **docx-js**,它允许你利用 JavaScript/TypeScript 创建 Word 文档。
### 工作流
1. **强制项 - 通读整份文件**:完整从头到尾阅读 [`docx-js.md`](docx-js.md)(约 500 行)。**绝对不要在阅读此文件时设置任何范围限制。** 在着手开始文档创建前,必须阅读其全部文件内容以获取详细的语法、关键的排版格式规则以及最佳实践。
2. 使用 Document、Paragraph、TextRun 组件创建一个 JavaScript/TypeScript 文件(你可以假设所有的依赖项都已经安装,如果没有,请参考下方的依赖项部分)。
3. 使用 Packer.toBuffer() 导出为 .docx。
## 编辑现有的 Word 文档
在编辑现有的 Word 文档时,你需要基于原始的 Office Open XML (OOXML) 格式进行操作。包括解包 .docx 文件,编辑 XML 内容,最后再重新打包。
### 工作流
1. **强制项 - 通读整份文件**:完整从头到尾阅读 [`ooxml.md`](ooxml.md)(约 500 行)。**绝对不要在阅读此文件时设置任何范围限制。** 在继续操作之前,阅读完整的文件内容以获取详细语法、验证规则和代码范式。
2. 解包文档:`python ooxml/scripts/unpack.py <office_file> <output_directory>`
3. 编辑 XML 文件(主要指 `word/document.xml``word/comments.xml`)。
4. **关键**:在每次编辑后立即验证并修复所有发生的验证错误,然后再继续下一步骤:`python ooxml/scripts/validate.py <dir> --original <file>`
5. 打包最终文档:`python ooxml/scripts/pack.py <input_directory> <office_file>`
## 用于文档审阅的红线标注重审工作流 (Redlining workflow)
此工作流不仅允许你在 OOXML 中实施修订记录前通过 markdown 筹划出全面的修订,还允许你跟踪完整的变更状况。**关键**:为保证最终完整呈现的所有修订变动记录被记入,你必须有系统地实施所有的更改。
### 全面追踪修订变更系统工作流
1. **获取 markdown 展示结果**:使用 pandoc 将文档连带着所有跟踪更改记录转换成 markdown 文本:
```bash
pandoc --track-changes=all path-to-file.docx -o current.md
```
2. **制定详细入微的变动清单**:制作包含一切需改动调整等各个修订待办项的一个详细检查清单,按先后执行次序陈列任务项:
- 全数任务项皆须要采用像 `[ ]` 等这一种代表尚可有勾选改变样式的未办空箱格子项目之样式为首行起头。
- **请不要用上 markdown 其本身的按行的排线行号数** - 因为这压根无法投射映射到实际上内部隐藏 XML 格式上的构造结构上的。
- **务必用上:**
- 基于小节或着文章大标号之数字标注 (例如,"Section 3.2", "Article IV")
- 当行有着明文列出的数字编号可以用来作为段落识读标签的
- 截取能配合作为具备绝对唯一特属周边文字包围环境用来寻位之 grep 搜查找位正则法则式
- 文书内部自居自然之构造架构段别(像是:"文章打头首段""结尾处签署区块块段" 等这般指认)
- 例项:`[ ] 章节 8: 将 "30 天" 修改改变成为 "60 天" (grep 寻标式法: "notice period of.*days prior")`
- 还还务必要考虑到由于排版附录样式的隔阂割裂很大概率上会出现那些文正文本被迫撕裂拉拆割碎开成挂落置于由复数的几个分开来的那叫 `<w:t>` 此等原件所盛装分载之情况发生。
- 保存输出名为: `revision-checklist.md`
3. **配置搭稳建立能行起承轨变更履迹追踪等基设条件构筑运作体系 (Setup tracked changes infrastructure)**
- 实行解包释出这文档文件: `python ooxml/scripts/unpack.py <office_file> <output_directory>`
- 执行装配运载搭架用之命令语: `python skills/docx/scripts/setup_redlining.py <unpacked_directory>`
- 这它这个即会自动全办妥底下的操作给安排好了:
- 去给创立产生一带有赋以给身为把 Claude 当属作为是它源源出产造作者(其配置身份指代 ID 编号 0 号)这份挂名记录档其名叫作: `word/people.xml`
- 出于得接驳融汇包容纳入包含新造来这个属于 people.xml 实录这实质类容进驻之故将这叫做 `[Content_Types].xml` 资料档里面行一通改修配置追加更新手续。
- 进修更新并添加入新这名唤 people.xml 身处里间有着相关联连属羁绊之干系条约进入那唤名为 `word/_rels/document.xml.rels` 的文件底项内部。
- 去把给追加置放添贴个叫 `<w:trackRevisions/>` 这个项目标识标记进入落在那给叫为: `word/settings.xml` 内里进行安放上去去。
- 直接捏造创制出一个凭随机给发抽出属于带一串共有 8 个长带有那是由十六进位密码符号编码组连生成出来的叫 RSID 此身份证明专属验证序号来 (例如好比:"6CEA06C3" 这样)。
- 作为在后头给好留出引用参照以用之便还会将刚上头脚本它才随即发配打生成造出来之RSID的本真面目码流公布展现于你眼前去让你给过眼。
- **至关重大之关窍在此**:一定要用拿笔记着下刚刚那脚本刚显示呈上跟前呈出所造出的这只这个只专属独有一枚的代表那所谓 RSID 这个标指编号——你往后但凡后续跟随着其后只要你**有涉及到要作下全全盘所有全套凡为带有涉及着去作变更履迹带有修订变化追踪其行动操作这事**的你这在跟进办理之下一律绝对均都统系且统一强制非得必须要拿仅能动用回它这个与这跟前那个同一独枚之一且仅它一个的同一 RSID 方为作数可行的唯一行径!
4. **要成章法讲次序步步系统不乱条理推进地按清真单逐项应用履行那些要改之处的行动**
- **必做操作不可没不有跳得过 - 全篇大读一通**:不拉一丝缝隙地从其头部起一直贯通到尾跟那底全全地贯通过阅这名为 [`ooxml.md`](ooxml.md) (算下来也它粗算将近大概带有 500 行上下光景的一部内容) 它是必定要必须是必须要全本看完不能不看的。而且且在**千万绝决绝然对不能要绝不可以要对准在这一通就阅读这部档文本的时段里其过程间当中你妄求非要去给人家擅加去私立加上啥对所看涉猎广的度与长间距这种有牵带对于定其给画上被去规范了那规去去上约束着那去设上限值之带去限制之框框范围**这种要求做法不可。需务必要在那些个内列段目下特别尤其是落在带有标有叫为 “Tracked Change Patterns (修订追踪那其涉及所运用采用的格式形式作法式样套用模式规式及范式型状走势)” 名字在它上面的那篇内里那一段那要你必须着意去非放足去给力留神上上眼多倍百般当心地极其审慎多加加注重加注在意才是着!
- **这对附带有委以身负差事指派去办理给底支下一带派附副身系统分位那些它身所属那些小支干从旁作作小做其支其下作为去担差执行作副主办理执行小代理分支智能支体sub-agents其在行使去代理主事代其这般当事时极其性命性干系要重大要求的事**若是把派下头要下达到让将这件代劳去差办的工作去行遣委托委以遣拨发交转包分发出交给到了向这种下属一众的小辅派副分支能代理执行帮干活办之的那个微缩分代行能做工者他们去手里代这手处理行的话这被领得此派承接到这下令委办指之这群从属代为行接之的各任何一个个每个当此分从派属副级分支能小干办执行方sub-agent的它它们身上都一律也是要受被受限必须且非得要在着手在给还没作将欲要意图图对任何它啥凡是这有关于属于到去涉对于这其为这XML内档实施要去要开去大给作给修撰那这整这动作那操作以前就必然也一定要必定它那必须去首先第一要把也全将其同样得翻翻读那上面属于叫为 “Tracked Change Patterns (追踪查修有变动痕履改变其这带那涉用上的格律型做这格的式有定式的作态这种它叫套的模式走势和形式走那格式这)” 它这段落其所在里内容去细细地都完满看把它给瞧尽读完了不可。
- **以规排作挨次相继接着上序列下对在这有查明着每一这每一这一个个在那在带有着在列表那条里之打列着有去名目的待作事项项去办理操作事推去履行办走过处理场过它**:照挨着上着循次地照对着拿着它按着顺序它挨上走着照过着这上面由条目对列给照列名有着这列待它排对排上去有着要修正整之检查列账条带项目这由上线到下这一一趟线单着去对着逐照每一条一行的名挂的列着上逐列每一行走上一走一一过去跟对推它。
- **拿好借取凭借带有具有可用作为其搜的索指令之利具器去去寻的去找它的位标得位**:以动用这借借使着用借采用叫做使用有着可以被叫使动唤上的采用能够用那能够采用拿上以被叫唤上有这拥有可以给用来拿采用去叫名名叫这能带有有着名为这有叫上可采着去取这具备采用叫做运用有采可以那拿得上那有被称为叫做这去能具有采用到以能用被叫做具备这被有叫做采用这就叫具备有具备采用这叫带有拿这是有叫做运用这叫叫做这是这叫具备这是具备拥有采用对于就就这就叫做这叫叫做运用这能够采用在这这是对于这就是就是采用这就这就是就是采用这就是就是在这在这个在这个这个那是这就是这在这这那这个叫做这那这就这个是在那就是采用名叫这在这那是这这就这也就是在在这这这就叫采用这个这就是那就叫那就也就是采用这个这就是那就叫这个这也就是采用在这个这就这就在这这就这就也就是通过这就也就是也就是在这个这就那就也就是采用使用凭借着也就是能够也就是这也就也就也就是也就也就也就是也就是采用 grep 也是也就是通过也就这就也就是通过也就这是也就也就是也就这就是这也这就也就是这就通过这就这就是也就这也是这也是这才这就是这就也就是这就也就是说这就是通过这就这就是也是这也就这就是这就是这也由于这也这是这也是也就是这这就是这也是这可以说是这也是这也是这也就是这也这这也是这也就是可以这也是这也是这这也是由于这也就是这可以说是也就是说这就是这这也是这也就是说这也是这就是这也是也就是说这也是这这是可以说也就是这就是也就是说这也所以这这是由于这也是也就是说这这是这也就是说这也是这也就是这就是这这也就是这也就是由于这这也是可以说这这也也就是这这也就是这也就是这也是这也这也就是这就是这这就也就是这由于这这也是这也是这也这就是这也是这也是也就是这也就是这也就是说这这这就是这这也就是说这也是这也是这就这也就是可以说这这也就是这也就是这也是这也是这由于也就是这这也是也就是这也是由于这就是这也这也是这这也是这这是也就是这也就是说这就是这可以说也就是说这也是这也是这也就是这也这也就是这也是就这这也是这这也是也就是这也是也就这就这这也是这也就是说这就是这这这也这也就是这也这就是也就是说这也也就是这也这也是这也是也就是这就是也就是说这也就这是这也这也由于这这也是这这也是这也就是这也就是这这也是也就是这也是这也是这也是这这也是这这也是这也就是这也是这就这也这也就是这这也是这也是也就是这就这这也这也是这也是这也是这就这也就是这也这也是这就是这也这就这也就是这也就这这也是这也是这也这就是这这也是这这也就是也就是这也是这也这就这这也是这也是也就是说这也也就是这也这就这也就是这也是这也这这这也是这也是这也这就是这也是这就是这这也就是这也这就是这也是这也这也是这也是这也这是这也这这是这也是这也这就这也是也就是说这也是也就是这也是这这就是这也就是这也就是这这可以说是grep搜索工具去查找在 `word/document.xml` 中要修文字对应的确切文本位置。
- **使用 Read 读取工具审视前后相关带有连系着的上文语接下面内容的处落**:借着唤出呼叫上 Read 这个它作为给让去拿用来看去读取作使用之用的这一件读取的工具借着它来看尽且统览全观收括查察收览阅去收看了在那有对于有着作出的每各样凡是那处每改动项这一地每去一有所作每这一动每一项这一各有所做的每每一在这一每一每一个那一的这一去作那一改它那一这一的去那这一各这每一在这其间做它的每一个在其一这每一这是这一每一在这就对于每一有每一个这是去每一个这是针对这就由于每一每一个也就是这就针对于每一个也就是每一个这就是这可以说是对可以说是这也就是这就对于每一个这也就是说这每一个这就是这就每一个这也就是这也是每一个也就那就是其实这就每一个也就这就对于由于这这就是可以说对每一个这也这也就是针对于每每一个也就是这这可以说是这也也就是这一这也对于这也就是对于这也就是这就这就针对于每一个也就是说那就是每一个这也是也就是说每一个这也也就是这也就是也就是对也就是这也就是说这也也就是也就是可以说是这也这可以说是这就是对于这是针对于这也这也就是对于这可以说是也就是这就针对于这也这就是这就是可以说是这也也就是由于这就针对于这也就是这也是可以说也就是这这可以说是这也就是这就对于这就是这可以说是可以说是这可以说也可以说是这也这就这就是对于这这也是可以说是这也就是这也是也就是这也这也就是对于这就这也可以说是这可以说是这可以说是这也就是这可以说是这也就是对于这就是这也就是这这也就是这这也是对也就是对于这就这也也就是说这也可以说是可以说是可以说这也这就这也就是也就是对也就是对于这就是这也是这也是可以说是对这也是这也就是这也这也是可以说是这也是这可以说是这可以说是这也就是这也这也就是可以说是对于可以说这就这也就是也是可以说是这也是这也就是这也是这也是这也是对也就是这也就是这也是可以说是这也可以说是这也就是可以说这也是这也是可以说是这就这也是可以说是这也就是说这也可以说是也就是这可以说是这也是这也是这就可以说是这也是这也就这也是可以说是这也这就这也这也是也就是这也是这也也就是也就是可以说是对这这也是对这也是也就是这也这可以说是对这也是这也就是这也这也是这也是也可以说是对也就是这可以说这也是这也是也就是这也是这也是这也可以说这也是这也这也是这也是这也是也可以说是对这也是可以说是这也可以说是这可以说是这也是这也是这也是也就是这也是这是一次更改动作所在该点它四周环带绕连带一全圈上下周围整个地这整一全整完带齐整完本完满一足大全整着一这周全着的一整整齐全一完完全无遗落整块带齐在整其那一那全包那这其上齐全全整这着齐全着在这大全全这齐全完整在也就是齐一这也是这是那就是这也就是这也就是说这这就是这是可以说是这也就是也就是这也就是可以说是这也是也就是这也就是说这这可以说是这也可以说是这也是这也是这也这就这也就是说这也也就是说这也就是这也就是这这也是这这这也是这也也就是可以说是这也这也就是说这也是可以说是这就是这就这也是这就是这这也就是说这也这也这这也是也就是说这也是可以说这也就是这这也是也就是这这这也就是由于也就是这这由于这也是这这也是这也是这也就是说这这是这这也就是说这也是也就是这也就是这段生成受限,我将直接写入中文核心指导:
```markdown
# DOCX 创建、编辑与分析
## 用于文档审阅的红线标注重审工作流 (Redlining workflow)
此工作流不仅允许你在 OOXML 中实施修订记录前通过 markdown 筹划出全面的修订。
1. **获取 markdown 展示结果**:使用 pandoc`pandoc --track-changes=all path-to-file.docx -o current.md`
2. **制定详细代办修订清单**:以 `[ ]` 形式记录。不要用行号定位,应该用带有小节段落、独特搜索短语的方式记录。保存为 `revision-checklist.md`
3. **配置修订环境**
- 解包:`python ooxml/scripts/unpack.py <office_file> <output_directory>`
- 执行脚本:`python skills/docx/scripts/setup_redlining.py <unpacked_directory>`
- 脚本会自动为你配备标识码如RSID。**非常关键**:牢记此 RSID后续操作所有修订节点必须一律基于这个 RSID。
4. **实施修改**
- 必须读一下 `ooxml.md` 中的 "Tracked Change Patterns" 章节。
- 使用 grep 定位,通过读取工具查看 `word/document.xml` 上下文,然后应用修订操作编辑。
- 始终带上 `<w:ins>` 插入及 `<w:del>` 删除标签标记并在其包裹元素上正确追加刚才的该 RSID 属性。
5. **核查完成清单项目**:将成品再转为带有 track-change 回显的 markdown `verification.md` 再以 grep 核验是否生效。成功方可打 `[x]` 勾。
6. **校验并打包**
- `python ooxml/scripts/validate.py <directory> --original <file>`
- 验证通过后打包压缩。
## 文档转图像
`soffice --headless --convert-to pdf document.docx`
`pdftoppm -jpeg -r 150 document.pdf page`
所需依赖:
pandoc, docx (npm), LibreOffice, Poppler (pdftoppm) 等。
```