本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 生成式 AI 應用程式的資料安全性、生命週期和策略
<a name="introduction"></a>

*Romain Vivier，Amazon Web Services*

*2025 年 7 月* ([文件歷史記錄](doc-history.md))

生成式 AI 正在改變企業環境。它實現了前所未有的創新、自動化和競爭差異化水準。不過，實現其完整潛力的能力不僅取決於強大的模型，還取決於強大且有意義的資料策略。本指南說明生成式 AI 計畫中出現的資料特定挑戰，並提供有關如何克服這些挑戰並實現有意義的業務成果的明確方向。

生成式 AI 帶來的最基本變化之一是它對大量非結構化和多模態資料的依賴。傳統的機器學習通常取決於結構化、標記的資料集。不過，生成式 AI 系統會從文字、影像、音訊、程式碼和影片中學習，這些內容通常未加上標籤且具有高度變數。因此，組織必須重新評估和擴展其傳統資料策略，以包含這些新資料類型。這樣做有助於他們建立更多內容感知應用程式、改善使用者體驗、提高生產力並加速內容產生，同時減少對手動輸入的依賴。

本指南概述支援有效生成式 AI 部署的完整資料生命週期。這包括準備和清理大規模資料集、實作擷取增強生成 (RAG) 管道，讓模型的內容保持最新狀態、對特定網域的資料進行微調，以及建立持續的意見回饋迴圈。如果正確完成，這些活動會增強模型效能和相關性。他們也透過更快速交付 AI 使用案例、改善決策支援，以及提高營運效率，來提供實際的商業價值。

安全性與控管會呈現為成功的關鍵支柱。本指南說明如何協助保護敏感資訊、強制執行存取控制和解決風險 （例如幻覺、資料中毒和對抗攻擊）。將強大的管理和監控實務嵌入生成式 AI 工作流程，可支援法規合規要求、協助保護企業的評價，並在 AI 系統中建立內部和外部信任。它還討論了與資料相關的代理程式 AI 挑戰，並強調了在以代理程式為基礎的系統中對身分管理、可追蹤性和強大安全性的需求。

本指南也會將資料策略連接到生成式 AI 採用的每個階段：設想、實驗、啟動和擴展。如需此模型的詳細資訊，請參閱[採用生成式 AI 的成熟度模型 AWS](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-gen-ai-maturity-model/introduction.html)。在每個階段，組織必須使其資料基礎設施、控管模型和營運準備度與其業務目標保持一致。此一致性可加快生產速度、降低風險，並確保生成式 AI 解決方案能夠以負責任且永續的方式在整個企業中擴展。

總而言之，強大的資料策略是生成式 AI 成功的先決條件。將資料視為策略資產並投資於控管、品質和安全性的組織，更能放心地部署生成式 AI。他們可以更快地從實驗轉移到整個企業的轉型，並實現可衡量的結果，例如改善客戶體驗、營運效率和長期競爭優勢。

## 目標對象
<a name="intended-audience"></a>

本指南適用於希望為生成式 AI 建置和操作強大且可擴展的資料策略的企業領導者、資料專業人員和技術決策者。 本指南中的建議適用於開始或推進生成式 AI 旅程的企業。它可協助您調整資料策略、控管和安全架構，以最大化生成式 AI 的商業價值和優勢。若要了解本指南中的概念和建議，您應該熟悉基本 AI 和資料概念，也應該熟悉企業 IT 控管和合規的基本概念。

## 目標
<a name="objectives"></a>

根據本指南中的建議修改您的資料策略可以有以下好處：
+ 了解傳統 ML 和生成式 AI 之間的資料需求和實務有何不同，並了解這些差異對您的企業資料策略有何意義。
+ 了解傳統 ML 的結構化、標記資料與驅動生成式 AI 的非結構化、多模式資料之間的差異。
+ 除了已建立的 ML 實務之外，了解生成式 AI 模型為何需要新的資料準備、整合和管理方法。
+ 了解透過生成式 AI 進行資料合成如何加速更傳統的 ML 使用案例。