Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menggunakan model bahasa besar untuk perawatan kesehatan dan kasus penggunaan ilmu hayati
<a name="llms"></a>

Ini menjelaskan bagaimana Anda dapat menggunakan model bahasa besar (LLMs) untuk aplikasi perawatan kesehatan dan ilmu hayati. Beberapa kasus penggunaan memerlukan penggunaan model bahasa besar untuk kemampuan AI generatif. Ada kelebihan dan batasan bahkan untuk sebagian besar state-of-the-art LLMs, dan rekomendasi di bagian ini dirancang untuk membantu Anda mencapai hasil target Anda.

Anda dapat menggunakan jalur keputusan untuk menentukan solusi LLM yang sesuai untuk kasus penggunaan Anda, dengan mempertimbangkan faktor-faktor seperti pengetahuan domain dan data pelatihan yang tersedia. Selain itu, bagian ini membahas praktik medis LLMs dan terbaik yang telah dilatih sebelumnya untuk pemilihan dan penggunaannya. Ini juga membahas trade-off antara solusi yang kompleks dan berkinerja tinggi dan pendekatan yang lebih sederhana dan berbiaya rendah.

## Gunakan kasus untuk LLM
<a name="llm-use-cases"></a>

Amazon Comprehend Medical dapat melakukan tugas NLP tertentu. Untuk informasi selengkapnya, lihat [Kasus penggunaan untuk Amazon Comprehend Medical](comprehend-medical.md#comprehend-medical-use-cases).

Kemampuan AI logis dan generatif dari LLM mungkin diperlukan untuk kasus penggunaan perawatan kesehatan dan ilmu hayati tingkat lanjut, seperti berikut ini:
+ Mengklasifikasikan entitas medis khusus atau kategori teks
+ Menjawab pertanyaan klinis
+ Meringkas laporan medis
+ Menghasilkan dan mendeteksi wawasan dari informasi medis

## Pendekatan kustomisasi
<a name="llm-customization"></a>

Sangat penting untuk memahami bagaimana LLMs diimplementasikan. LLMs biasanya dilatih dengan miliaran parameter, termasuk data pelatihan dari banyak domain. Pelatihan ini memungkinkan LLM untuk menangani sebagian besar tugas umum. Namun, tantangan sering muncul ketika pengetahuan khusus domain diperlukan. Contoh pengetahuan domain dalam perawatan kesehatan dan ilmu kehidupan adalah kode klinik, terminologi medis, dan informasi kesehatan yang diperlukan untuk menghasilkan jawaban yang akurat. Oleh karena itu, menggunakan LLM apa adanya (bidikan nol tanpa menambah pengetahuan domain) untuk kasus penggunaan ini kemungkinan menghasilkan hasil yang tidak akurat. Ada beberapa pendekatan populer yang dapat Anda gunakan untuk mengatasi tantangan ini: teknik cepat, Retrieval Augmented Generation (RAG), dan fine-tuning.

### Rekayasa yang cepat
<a name="llm-customization-prompt-engineering"></a>

*Rekayasa cepat* adalah proses di mana Anda memandu solusi AI generatif untuk membuat output yang diinginkan dengan menyesuaikan input ke LLM. Dengan menyusun petunjuk yang tepat dengan konteks yang relevan, dimungkinkan untuk memandu model menuju penyelesaian tugas perawatan kesehatan khusus yang memerlukan penalaran. Rekayasa cepat yang efektif dapat secara signifikan meningkatkan kinerja model untuk kasus penggunaan perawatan kesehatan tanpa memerlukan modifikasi model. Untuk informasi selengkapnya tentang teknik cepat, lihat [Menerapkan teknik prompt lanjutan dengan Amazon Bedrock](https://aws.amazon.com/blogs/machine-learning/implementing-advanced-prompt-engineering-with-amazon-bedrock/) (posting AWS blog). Few-shot prompt dan chain-of-thought prompt adalah teknik yang dapat Anda gunakan dalam rekayasa yang cepat.

#### Beberapa bidikan yang diminta
<a name="few-shot-prompting"></a>

Few-shot prompt adalah teknik di mana Anda memberikan LLM dengan beberapa contoh input-output yang diinginkan sebelum memintanya untuk melakukan tugas serupa. Dalam konteks perawatan kesehatan, pendekatan ini sangat berharga untuk tugas-tugas khusus, seperti pengenalan entitas medis atau ringkasan catatan klinis. Dengan memasukkan 3-5 contoh berkualitas tinggi dalam prompt Anda, Anda dapat secara signifikan meningkatkan pemahaman model tentang terminologi medis dan pola spesifik domain. Untuk contoh petunjuk beberapa bidikan, lihat Beberapa [rekayasa cepat dan penyetelan halus untuk](https://aws.amazon.com/blogs/machine-learning/few-shot-prompt-engineering-and-fine-tuning-for-llms-in-amazon-bedrock/) Amazon Bedrock (posting blog). LLMs AWS 

Misalnya, ketika Anda mengekstrak dosis obat dari catatan klinis, Anda dapat memberikan contoh gaya notasi berbeda yang membantu model mengenali variasi dalam cara profesional kesehatan mendokumentasikan resep. Pendekatan ini sangat efektif ketika bekerja dengan format dokumentasi standar atau ketika pola yang konsisten ada dalam data.

#### Chain-of-thought mendorong
<a name="chain-of-thought-prompting"></a>

*Chain-of-thought (CoT) mendorong* LLM melalui proses penalaran. step-by-step Ini membuatnya berharga untuk dukungan keputusan medis yang kompleks dan tugas penalaran diagnostik. Dengan secara eksplisit menginstruksikan model untuk “berpikir langkah demi langkah” saat menganalisis skenario klinis, Anda dapat meningkatkan kemampuannya untuk mengikuti protokol penalaran medis dan mengurangi kesalahan diagnostik.

Teknik ini unggul ketika penalaran klinis memerlukan beberapa langkah logis, seperti diagnosis banding atau perencanaan perawatan. Namun, pendekatan ini memiliki keterbatasan ketika berhadapan dengan pengetahuan medis yang sangat khusus di luar data pelatihan model atau ketika presisi absolut diperlukan untuk keputusan perawatan kritis.

Dalam kasus ini, menggabungkan CoT dengan pendekatan lain dapat menghasilkan hasil yang lebih baik. Salah satu opsi adalah menggabungkan CoT dengan dorongan konsistensi diri. Untuk informasi selengkapnya, lihat [Meningkatkan kinerja model bahasa generatif dengan petunjuk konsistensi diri di Amazon Bedrock](https://aws.amazon.com/blogs/machine-learning/enhance-performance-of-generative-language-models-with-self-consistency-prompting-on-amazon-bedrock/) (AWS posting blog). Pilihan lain adalah menggabungkan kerangka penalaran, seperti ReAct prompt, dengan RAG. Untuk informasi selengkapnya, lihat [Mengembangkan asisten berbasis obrolan AI generatif tingkat lanjut dengan menggunakan RAG dan ReAct](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/develop-advanced-generative-ai-chat-based-assistants-by-using-rag-and-react-prompting.html) prompt (Panduan Preskriptif).AWS 

### Pengambilan Generasi Augmented
<a name="llm-customization-rag"></a>

*Retrieval Augmented Generation (RAG)* adalah teknologi AI generatif di mana LLM mereferensikan sumber data otoritatif yang berada di luar sumber data pelatihannya sebelum menghasilkan respons. Sistem RAG dapat mengambil informasi ontologi medis (seperti klasifikasi penyakit internasional, file obat nasional, dan judul subjek medis) dari sumber pengetahuan. Ini memberikan konteks tambahan untuk LLM untuk mendukung tugas NLP medis.

Seperti yang dibahas di [Menggabungkan Amazon Comprehend Medical dengan model bahasa besar](comprehend-medical-rag.md) bagian ini, Anda dapat menggunakan pendekatan RAG untuk mengambil konteks dari Amazon Comprehend Medical. Sumber pengetahuan umum lainnya termasuk data domain medis yang disimpan dalam layanan database, seperti Amazon OpenSearch Service, Amazon Kendra, atau Amazon Aurora. Mengekstrak informasi dari sumber pengetahuan ini dapat mempengaruhi kinerja pengambilan, terutama dengan kueri semantik yang menggunakan database vektor.

Opsi lain untuk menyimpan dan mengambil pengetahuan khusus domain adalah dengan menggunakan [Amazon Q Business](https://docs.aws.amazon.com/amazonq/latest/qbusiness-ug/what-is.html) dalam alur kerja RAG Anda. Amazon Q Business dapat mengindeks repositori dokumen internal atau situs web yang menghadap publik (seperti [CMS.gov](https://cms.gov/) untuk data ICD-10). Amazon Q Business kemudian dapat mengekstrak informasi yang relevan dari sumber-sumber ini sebelum meneruskan kueri Anda ke LLM.

Ada beberapa cara untuk membangun alur kerja RAG kustom. Misalnya, ada banyak cara untuk mengambil data dari sumber pengetahuan. Untuk mempermudah, kami merekomendasikan pendekatan pengambilan umum menggunakan database vektor, seperti Amazon OpenSearch Service, untuk menyimpan pengetahuan sebagai embeddings. Ini mengharuskan Anda menggunakan model embedding, seperti transformator kalimat, untuk menghasilkan embeddings untuk kueri dan untuk pengetahuan yang disimpan dalam database vektor.

Untuk informasi selengkapnya tentang pendekatan RAG yang dikelola sepenuhnya dan kustom, lihat [opsi dan arsitektur Retrieval Augmented Generation](https://docs.aws.amazon.com/prescriptive-guidance/latest/retrieval-augmented-generation-options/introduction.html) di. AWS

### Penyetelan halus
<a name="llm-customization-fine-tuning"></a>

*Menyesuaikan* model yang ada melibatkan pengambilan LLM, seperti model Amazon Titan, Mistral, atau Llama, dan kemudian mengadaptasi model ke data kustom Anda. Ada berbagai teknik untuk fine-tuning, yang sebagian besar melibatkan memodifikasi hanya beberapa parameter alih-alih memodifikasi semua parameter dalam model. Ini disebut *parameter-efficient fine-tuning* (PEFT). Untuk informasi lebih lanjut, lihat [Hugging Face GitHub PEFT](https://github.com/huggingface/peft) di.

Berikut ini adalah dua kasus penggunaan umum ketika Anda mungkin memilih untuk menyempurnakan LLM untuk tugas NLP medis:
+ **Tugas generatif** - Model berbasis decoder melakukan tugas AI generatif. AI/ML praktisi menggunakan data kebenaran dasar untuk menyempurnakan LLM yang ada. Misalnya, Anda dapat melatih LLM dengan menggunakan [MedQuAD](https://github.com/abachaa/MedQuAD), kumpulan data penjawab pertanyaan medis publik. Saat Anda memanggil kueri ke LLM yang disetel dengan baik, Anda tidak memerlukan pendekatan RAG untuk memberikan konteks tambahan ke LLM.
+ **Embeddings** — Model berbasis encoder menghasilkan embeddings dengan mengubah teks menjadi vektor numerik. *Model berbasis encoder ini biasanya disebut model embedding.* *Model transformator kalimat adalah jenis spesifik dari model* embedding yang dioptimalkan untuk kalimat. Tujuannya adalah untuk menghasilkan embeddings dari teks input. Embeddings kemudian digunakan untuk analisis semantik atau dalam tugas pengambilan. Untuk menyempurnakan model penyematan, Anda harus memiliki kumpulan pengetahuan medis, seperti dokumen, yang dapat Anda gunakan sebagai data pelatihan. Ini dicapai dengan pasangan teks berdasarkan kesamaan atau sentimen untuk menyempurnakan model transformator kalimat. Untuk informasi lebih lanjut, lihat [Melatih dan Menyematkan Model Penyematan dengan Transformer Kalimat v3 di Hugging Face](https://huggingface.co/blog/train-sentence-transformers).

Anda dapat menggunakan [Amazon SageMaker Ground Truth](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) untuk membuat kumpulan data pelatihan berlabel berkualitas tinggi. Anda dapat menggunakan output dataset berlabel dari Ground Truth untuk melatih model Anda sendiri. Anda juga dapat menggunakan output sebagai kumpulan data pelatihan untuk model SageMaker AI Amazon. Untuk informasi selengkapnya tentang pengenalan entitas bernama, klasifikasi teks label tunggal, dan klasifikasi teks multi-label, lihat [Pelabelan teks dengan Ground Truth](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-label-text.html) dalam dokumentasi Amazon SageMaker AI.

Untuk informasi lebih lanjut tentang fine-tuning, lihat [Menyesuaikan model bahasa besar dalam perawatan kesehatan](fine-tuning.md) di panduan ini.

## Memilih LLM
<a name="llm-selection"></a>

[Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html) adalah titik awal yang direkomendasikan untuk mengevaluasi kinerja tinggi LLMs. Untuk informasi selengkapnya, lihat [Model foundation yang didukung di Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html). Anda dapat menggunakan pekerjaan evaluasi model di Amazon Bedrock untuk membandingkan output dari beberapa output dan kemudian memilih model yang paling cocok untuk kasus penggunaan Anda. Untuk informasi selengkapnya, lihat [Memilih model berkinerja terbaik menggunakan evaluasi Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html) dalam dokumentasi Amazon Bedrock.

Beberapa LLMs memiliki pelatihan terbatas pada data domain medis. [Jika kasus penggunaan Anda memerlukan fine-tuning LLM atau LLM yang tidak didukung Amazon Bedrock, pertimbangkan untuk menggunakan Amazon AI. SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html) Di SageMaker AI, Anda dapat menggunakan LLM yang disetel dengan baik atau memilih LLM khusus yang telah dilatih tentang data domain medis.

Tabel berikut mencantumkan populer LLMs yang telah dilatih tentang data domain medis.


| 
| 
| LLM | Tugas | Pengetahuan | Arsitektur  | 
| --- |--- |--- |--- |
| [BioBert](https://github.com/dmis-lab/biobert) | Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama | Abstrak dari PubMed, artikel teks lengkap dari PubMedCentral, dan pengetahuan domain umum | Encoder | 
| [Clinicalbert](https://github.com/kexinhuang12345/clinicalBERT) | Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama | Dataset multi-pusat yang besar bersama dengan lebih dari 3.000.000 catatan pasien dari sistem catatan kesehatan elektronik (EHR) | Encoder | 
| [ClinicalGPT](https://huggingface.co/medicalai/ClinicalGPT-base-zh) | Meringkas, menjawab pertanyaan, dan pembuatan teks | Kumpulan data medis yang luas dan beragam, termasuk catatan medis, pengetahuan khusus domain, dan konsultasi dialog multi-putaran | Dekoder | 
| [GatorTron-OG](https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og) | Meringkas, menjawab pertanyaan, pembuatan teks, dan pengambilan informasi | Catatan klinis dan literatur biomedis | Encoder | 
| [Med-bert](https://github.com/ZhiGroup/Med-BERT) | Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama | Kumpulan data besar teks medis, catatan klinis, makalah penelitian, dan dokumen terkait perawatan kesehatan | Encoder | 
| [Med-telapak tangan](https://sites.research.google/med-palm/) | Menjawab pertanyaan untuk tujuan medis | Kumpulan data teks medis dan biomedis | Dekoder | 
| [MedalPaca](https://github.com/kbressem/medAlpaca) | Tugas menjawab pertanyaan dan dialog medis | Berbagai teks medis, yang mencakup sumber daya seperti kartu flash medis, wiki, dan kumpulan data dialog | Dekoder | 
| [BioMedbert](https://huggingface.co/microsoft/BiomedNLP-BiomedBERT-base-uncased-abstract-fulltext) | Pengambilan informasi, klasifikasi teks, dan pengenalan entitas bernama | Eksklusif abstrak dari PubMed dan artikel teks lengkap dari PubMedCentral | Encoder | 
| [BioMedLM](https://github.com/stanford-crfm/BioMedLM) | Meringkas, menjawab pertanyaan, dan pembuatan teks | Literatur biomedis dari sumber pengetahuan PubMed  | Dekoder | 

Berikut ini adalah praktik terbaik untuk menggunakan medis LLMs terlatih:
+ Pahami data pelatihan dan relevansinya dengan tugas NLP medis Anda.
+ Identifikasi arsitektur LLM dan tujuannya. Encoder sesuai untuk penyematan dan tugas NLP. Decoder adalah untuk tugas pembuatan.
+ Mengevaluasi infrastruktur, kinerja, dan persyaratan biaya untuk menjadi tuan rumah LLM medis yang telah dilatih sebelumnya.
+ Jika fine-tuning diperlukan, pastikan kebenaran atau pengetahuan dasar yang akurat untuk data pelatihan. Pastikan Anda menutupi atau menyunting informasi identitas pribadi (PII) atau informasi kesehatan yang dilindungi (PHI).

Tugas NLP medis dunia nyata mungkin berbeda dari yang telah dilatih sebelumnya LLMs dalam hal pengetahuan atau kasus penggunaan yang dimaksudkan. Jika LLM khusus domain tidak memenuhi tolok ukur evaluasi Anda, Anda dapat menyempurnakan LLM dengan kumpulan data Anda sendiri atau Anda dapat melatih model fondasi baru. Melatih model pondasi baru adalah usaha yang ambisius, dan seringkali mahal. Untuk sebagian besar kasus penggunaan, kami merekomendasikan untuk menyempurnakan model yang ada.

Saat Anda menggunakan atau menyempurnakan LLM medis yang telah dilatih sebelumnya, penting untuk mengatasi infrastruktur, keamanan, dan pagar pembatas.

### Infrastruktur
<a name="llm-selection-infrastructure"></a>

Dibandingkan dengan menggunakan Amazon Bedrock untuk inferensi sesuai permintaan atau batch, hosting LLM medis terlatih (umumnya dari Hugging Face) membutuhkan sumber daya yang signifikan. Untuk meng-host LLM medis terlatih sebelumnya, biasanya menggunakan image Amazon SageMaker AI yang berjalan pada instans Amazon Elastic Compute Cloud (Amazon EC2) dengan satu atau GPUs lebih, seperti instans ml.g5 untuk komputasi yang dipercepat atau instans ml.inf2 untuk. AWS Inferentia Ini karena LLMs mengkonsumsi sejumlah besar memori dan ruang disk.

### Keamanan dan pagar pembatas
<a name="llm-selection-guardrails"></a>

Bergantung pada persyaratan kepatuhan bisnis Anda, pertimbangkan untuk menggunakan Amazon Comprehend dan Amazon Comprehend Medical untuk menutupi atau menyunting informasi identitas pribadi (PII) dan informasi kesehatan yang dilindungi (PHI) dari data pelatihan. Ini membantu mencegah LLM menggunakan data rahasia saat menghasilkan respons.

Kami menyarankan Anda mempertimbangkan dan mengevaluasi bias, keadilan, dan halusinasi dalam aplikasi AI generatif Anda. Apakah Anda menggunakan LLM yang sudah ada sebelumnya atau fine-tuning, terapkan pagar pembatas untuk mencegah respons berbahaya. *Guardrails* adalah perlindungan yang Anda sesuaikan dengan persyaratan aplikasi AI generatif dan kebijakan AI yang bertanggung jawab. Misalnya, Anda dapat menggunakan [Amazon Bedrock Guardrails](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html).