DevOps 特工技能 - AWS DevOps 代理人

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

DevOps 特工技能

AWS DevOps Agent Skills 是模块化指令集,可通过针对您的基础设施和运营工作流程量身定制的专业领域知识和调查方法来扩展代理的能力。

什么是技能

技能是包含为代理提供专门功能的 Markdown 指令的独立目录。 AWS DevOps AWS DevOps 代理支持 Agent Skills 规范(打包代理指令和资源的开放标准)的子集,仅支持不可执行的文档:Markdown 指令 PDFs、图像和数据文件。

每项技能都需要一个 Skill.md 文件,其中包含你要为特工提供的说明。 AWS DevOps 除了必需的 Skill.md 文件外,技能还可能包括:

  • 针对特定场景或基础设施类型的@@ 调查工作流程

  • 参考资料,包括架构模式和操作程序。

  • 座席类型定位 — 可以将技能定位到特定的代理类型(通用、按需、事件分类、事件 RCA、事件缓解、评估),以减少情境消耗并提高代理的注意力。

为什么要使用技能

技能将 AWS DevOps Agent 从通用助理转变为基础架构和操作工作流程的专家。与聊天消息中提供的一次性说明不同,技能是可重复使用的功能,在与 AWS DevOps 代理执行的任务相关时会自动加载。

主要好处:

  • 专业化您的代理 — Tailor AWS DevOps Agent 提供针对您的基础架构和运营模式的调查程序、最佳实践和组织知识。

  • 减少重复 — 只需创建一次调查工作流程, AWS DevOps Agent 即可在所有相关调查中自动使用这些工作流程,无需重复提供相同的指导。

  • 撰写能力-结合多种技能来构建 end-to-end调查工作流程。 AWS DevOps 代理在执行期间读取多种技能,例如用于从自定义 CI/CD 管道检索部署的技能和搜索代码存储库的技能。

  • Amplify 自定义工具 — 创建指导 AWS DevOps 代理有效使用自定义 MCP 服务器工具的技能。技能可以记录何时调用特定工具、在不同场景中使用哪些参数,以及如何解释结果以完成特定于您的基础架构的工作流程。

技能是如何运作的

当 AWS DevOps Agent 遇到相关任务时,它会加载相应的技能并按照说明指导其调查。例如,“数据库性能调查” 技能可能包括分析 RDS 限制问题的 step-by-step程序,使代理能够系统地检查警报状态、分析连接指标和识别慢速查询。

技能结构

技能按目录进行组织,其中包含:

my-skill/ ├── SKILL.md # Main skill instructions ├── references/ # Optional: additional reference documentation └── assets/ # Optional: images, diagrams, data files

skill.md

SKILL.md是唯一的必填文件。它包含以 Markdown 格式编写的核心指令。这个文件应该:

  • 描述何时以及如何使用该技能。

  • 提供 step-by-step调查程序。

  • 包括不同场景的决策树。

  • 记录预期产出和成功标准。

前置问题

Frontmatter 是SKILL.md文件顶部的元数据块,封闭在---分隔符之间。它包含namedescription字段, AWS DevOps 特工在调查或任务期间使用这些字段来确定何时激活技能。

--- name: rds-performance-investigation description: Investigation procedures for RDS performance issues including connection exhaustion, slow queries, replication lag, and storage capacity. Use this skill when investigating database latency, connection errors, or read/write performance degradation. ---

名称-技能的唯一标识符。仅使用小写字母、数字和连字符(最多 64 个字符)。不得以连字符开头或结尾。

描述-详细说明 AWS DevOps 代理何时以及为何应使用此技能。 AWS DevOps 代理评估此字段以确定该技能是否与当前任务相关。即使说明写得很好,模糊或缺失的描述也可能导致特工完全跳过技能。

重要-从代理的角度写下描述。包括应触发技能的特定场景、服务、错误类型或症状。例如,“在调查 Amazon RDS 实例的数据库延迟、连接错误或查询超时时时使用此技能” 比 “RDS 技能” 更有效。

当你在用户界面中创建技能时,系统会根据你提供的名称和描述自动生成 frontmatter。以 zip 文件形式上传的技能必须在文件中包含 frontmatter SKILL.md

示例:完成技能

以下示例显示了用于调查 RDS 性能问题的完整、成熟的技能。它演示了目录结构、Skill.md frontmatter、可行的调查程序和补充参考文件。

目录结构:

rds-performance-investigation/ ├── SKILL.md ├── references/ │ └── rds-metrics-reference.md └── assets/ └── rds-investigation-flowchart.png

skill.md:

--- name: rds-performance-investigation description: Investigation procedures for RDS performance issues including connection exhaustion, slow queries, replication lag, and storage capacity. Use this skill when investigating database latency, connection errors, or read/write performance degradation. --- # RDS Performance Investigation Use this skill when customers report database latency, connection errors, query timeouts, or read/write performance degradation. ## Step 1: Check alarm status Query CloudWatch for active alarms on the affected RDS instance. Look for: - `DatabaseConnections` exceeding 80% of max_connections - `ReadLatency` or `WriteLatency` above 20ms - `FreeStorageSpace` below 20% of total storage - `ReplicaLag` above 30 seconds (read replicas only) ## Step 2: Analyze connection metrics Retrieve `DatabaseConnections` over the past hour. If connections are near the max_connections limit, check for connection pool misconfiguration or long-running idle connections. ## Step 3: Identify slow queries Use Performance Insights (`pi:GetResourceMetrics`) to retrieve the top SQL statements by average active sessions. Focus on queries with high `db.load` contribution or frequent I/O waits. ## Step 4: Summarize findings Provide a summary with: 1. Current performance status (healthy / degraded / critical) 2. Root cause hypothesis with supporting metrics 3. Recommended remediation steps ranked by priority

references/ .mdrds-metrics-reference:

# RDS CloudWatch Metrics Reference | Metric | Normal Range | Investigation Threshold | |---|---|---| | DatabaseConnections | < 70% max_connections | > 80% max_connections | | ReadLatency | < 5ms | > 20ms | | WriteLatency | < 5ms | > 20ms | | FreeStorageSpace | > 30% total storage | < 20% total storage | | ReplicaLag | < 5 seconds | > 30 seconds | | CPUUtilization | < 70% | > 85% |

创造技能

在创建技能之前,你必须有一个特工空间。有关更多信息,请参阅 创建代理空间

您可以通过两种方式创建技能,具体取决于您的工作流程偏好和技能复杂性:

在 UI 中创建技能

在 A AWS DevOps gent Operator Web 应用程序中创建的技能在一个 Skill.md 文件中包含名称、描述和说明。

要在用户界面中创建技能,请执行以下操作:

  • 在 Agent Space Operator Web 应用程序中导航到 “技能” 页面。

  • 单击 “添加技能”。

  • 从模式中选择 “创建技能”。

  • 填写技能表:

    • 名称-仅限小写字母、数字和连字符(最多 64 个字符)。不得以连字符开头或结尾。示例:rds-throttling-investigation

    • 描述-简要说明何时使用此技能(建议最少 100 个字符,最多 1,024 个字符)。这可以帮助代理确定何时激活技能。

    • 状态-设置为 “活动”(默认)或 “非活动”。特工不使用非活动技能。

    • 代理类型-选择一个或多个可以使用此技能的代理类型。默认情况下,“用” 处于选中状态,该技能可供所有代理类型使用。要定位特定的代理,请取消选择 “通用”,然后选择:按需、事件分类、事件 RCA、事件缓解或评估。

    • 说明 — Markdown 格式的 Step-by-step程序。要具体且具有可操作性。

  • 单击 “创建” 保存技能。

系统会自动生成一个具有适当前题结构的 Skill.md 文件。

要编辑在 UI 中创建的技能,请执行以下操作:

  • 导航到技能列表中的技能,然后单击该技能将其打开。

  • 单击编辑

  • 修改名称、描述或说明。

  • 单击 “保存” 更新技能。

上传技能

以 zip 文件形式上传的技能包含 Skill.md 文件以及其他资源,例如参考资料或资产。

技能结构:

my-skill.zip ├── SKILL.md # Required: main skill instructions ├── references/ # Optional: reference documentation │ ├── architecture.md │ └── troubleshooting.md └── assets/ # Optional: images, diagrams, data files ├── topology.png └── metrics.csv

Skill.md 前题要求:

作为 zip 文件上传的技能必须包含 skill.md 中的前题,以及name和字段。description AWS DevOps 代理使用这些字段来确定何时激活技能。有关撰写有效 frontmatter 的详细信息,请参阅本主题前面的 Frontmatter 部分。

--- name: rds-performance-analysis description: Comprehensive RDS performance investigation procedures for connection exhaustion, slow queries, and storage capacity issues. Use when investigating database latency or read/write degradation. --- # RDS Performance Analysis [Your skill instructions here...]

要通过 zip 上传创建技能,请执行以下操作:

  • 按照上述结构创建一个包含技能文件的目录。

  • 确保 Skill.md 包含正确的前言(名称和描述)。

  • 将该目录压缩成.zip 文件。

  • 在 Agent Space Operator Web 应用程序中导航到 “技能” 页面。

  • 单击 “添加技能”。

  • 从模式中选择 “上传技能”。

  • 拖放您的.zip 文件或单击进行浏览(仅限 ZIP 文件,最大 6 MB)。

  • 选择一个或多个可以使用此技能的代理类型(默认情况下选择通用并适用于所有代理类型;取消选择则专门针对按需、事件分类、事件 RCA、事件缓解或评估)。

  • 查看 zip 文件要求和验证结果。

  • 单击 “上传” 将技能添加到您的特工空间。

以 zip 文件形式上传技能的重要限制:

  • 目前不支持脚本scripts/ 目录中包含脚本的技能将在上传过程中被拒绝。一旦代理可以访问安全的编码环境,脚本执行功能将在未来的版本中启用。

  • 大小限制-压缩文件总大小不得超过 6 MB(包括所有文件)。

  • 需要 skill.md — zip 文件必须包含一个带有有效 frontmatter 的 Skill.md 文件。

命名技巧的最佳实践:

使用清晰的描述性名称,比如 “rds-throttling-investigation”,而不是通用名称。一个好的技能名称反映了它所涉及的特定场景或服务,因此可以更轻松地一目了然地识别出正确的技能。

管理技能

AWS DevOps Agent 通过操作员 Web 应用程序提供全面的技能管理功能:

列出技能 — 查看特工空间中的所有技能。技能页面显示技能名称、活动或非活动状态、创建日期、上次更新日期和可用操作。

查看技能 — 单击任意技能可查看其详细视图。在 UI 中创建的技能会显示可编辑的内容,您可以直接在 UI 中修改名称、描述或说明,然后单击 “保存” 进行更新。作为 zip 文件上传的技能会显示一个文件树,其中显示 Skill.md 以及任何其他目录,例如引用/ 和 assets/。单击树中的文件可在只读模式下查看其内容。

为技能选择代理-配置在创建或编辑技能时可以使用每种技能的代理类型。在座席类型下拉列表中,使用复选框选择一个或多个代理类型:用(默认-适用于所有座席类型)、按需(对话查询)、事件分类(初始事件评估)、事件 RCA(根本原因分析)、事件缓解(自动事件响应)或评估(主动建议)。默认情况下,“通用” 处于选中状态,该技能可供所有代理类型使用。针对特定代理的技能可以减少情境消耗并提高代理的注意力。

激活和停用技能-暂时禁用技能而不使用 Active/Inactive 切换按钮将其删除。打开技能详细信息视图并将开关切换到 “非活动”,以防止代理在保留所有内容和配置的同时加载技能详细信息以进行新的调查。正在进行的调查仍在继续使用该技能。切换回 “激活” 以使该技能立即再次可用。

更新技能-根据现有技能的创建方式对其进行修改。对于在用户界面中创建的技能,请在技能详细信息视图中单击 “编辑”,修改名称、描述或说明,然后单击 “保存” 进行更新。对于以 zip 文件形式上传的技能,请在本地修改文件,创建新的 zip 文件,然后上传新版本。

删除技能-永久移除特工空间中的技能。打开技能列表视图,点击更多选项菜单 () 并选择 “删除”,查看有关永久删除的警告,键入要确认的技能名称,然后单击 “删除技能”。删除操作无法撤消。如果正在进行的调查尝试加载已删除的技能,则可能会受到影响。对于以 zip 文件形式上传的技能,请先下载 zip 文件,然后再将其作为备份删除。如果您再次需要该技能,可以考虑停用该技能,而不是将其删除。

从 Runbook 迁移

现有 Runbook 会自动迁移到技能,无需客户采取任何行动。当你的 Agent Space 过渡到技能模型时,所有 Runbook 都将转换为技能并出现在你的技能用户界面中。迁移后,您可以:

  • 查看迁移的技能-检查自动迁移是否正确转换了您的 Runbook。

  • 根据需要更新-直接在用户界面中编辑技能以完善说明、更新描述或配置代理类型定位。

  • 使用参考文献进行扩展 — 对于可以从其他参考资料或架构图中受益的技能,请将它们重新创建为带有参考文献或资产/目录的 zip 上传技能。

  • 创建新技能-为 Runbook 以前未涵盖的调查工作流程添加新技能。

如果您在自动迁移的技能方面遇到任何问题,或者需要有关迁移后更新的帮助,请联系 AWS Support。