Casos de uso para um LLM Personalização Escolhendo um LLM

Usando grandes modelos de linguagem para casos de uso de saúde e ciências biológicas

Isso descreve como você pode usar modelos de linguagem grandes (LLMs) para aplicações de saúde e ciências biológicas. Alguns casos de uso exigem o uso de um grande modelo de linguagem para recursos generativos de IA. Há vantagens e limitações até mesmo para a maioria state-of-the-art LLMs, e as recomendações nesta seção foram elaboradas para ajudá-lo a atingir os resultados desejados.

Você pode usar o caminho de decisão para determinar a solução LLM apropriada para seu caso de uso, considerando fatores como conhecimento do domínio e dados de treinamento disponíveis. Além disso, esta seção discute os médicos pré-treinados populares LLMs e as melhores práticas para sua seleção e uso. Ele também discute as vantagens e desvantagens entre soluções complexas de alto desempenho e abordagens mais simples e de baixo custo.

Casos de uso para um LLM

O Amazon Comprehend Medical pode realizar tarefas específicas de PNL. Para obter mais informações, consulte Casos de uso do Amazon Comprehend Medical.

Os recursos lógicos e generativos de IA de um LLM podem ser necessários para os casos de uso avançados de saúde e ciências biológicas, como os seguintes:

Classificação de entidades médicas personalizadas ou categorias de texto
Respondendo a perguntas clínicas
Resumindo relatórios médicos
Gerando e detectando insights de informações médicas

Abordagens de personalização

É fundamental entender como LLMs são implementados. LLMs geralmente são treinados com bilhões de parâmetros, incluindo dados de treinamento de vários domínios. Esse treinamento permite que o LLM aborde as tarefas mais generalizadas. No entanto, muitas vezes surgem desafios quando o conhecimento específico do domínio é necessário. Exemplos de conhecimento de domínio em saúde e ciências biológicas são códigos clínicos, terminologia médica e informações de saúde necessárias para gerar respostas precisas. Portanto, usar o LLM como está (solicitação zero sem complementar o conhecimento do domínio) para esses casos de uso provavelmente resulta em resultados imprecisos. Há várias abordagens populares que você pode usar para superar esse desafio: engenharia rápida, geração aumentada de recuperação (RAG) e ajuste fino.

Engenharia rápida

A engenharia rápida é o processo em que você orienta as soluções generativas de IA para criar as saídas desejadas ajustando as entradas ao LLM. Ao criar instruções precisas com contexto relevante, é possível orientar o modelo para a conclusão de tarefas de saúde especializadas que exigem raciocínio. A engenharia rápida eficaz pode melhorar significativamente o desempenho do modelo para casos de uso na área de saúde sem exigir modificações no modelo. Para obter mais informações sobre engenharia rápida, consulte Implementação de engenharia rápida avançada com o Amazon Bedrock (postagem AWS no blog). A solicitação e a solicitação de poucas tentativas são técnicas que você pode usar na engenharia chain-of-thought imediata.

prompt few shot

A solicitação de poucos cliques é uma técnica em que você fornece ao LLM alguns exemplos da entrada-saída desejada antes de solicitar que ele execute uma tarefa semelhante. Em contextos de saúde, essa abordagem é particularmente valiosa para tarefas especializadas, como reconhecimento de entidades médicas ou resumo de notas clínicas. Ao incluir de 3 a 5 exemplos de alta qualidade em sua solicitação, você pode melhorar significativamente a compreensão do modelo sobre a terminologia médica e os padrões específicos do domínio. Para ver um exemplo de solicitação em poucas etapas, consulte Engenharia e ajuste fino de solicitações em poucas fotos no LLMs Amazon Bedrock (postagem no blog).AWS

Por exemplo, ao extrair dosagens de medicamentos de notas clínicas, você pode fornecer exemplos de diferentes estilos de notação que ajudam o modelo a reconhecer variações na forma como os profissionais de saúde documentam as prescrições. Essa abordagem é especialmente eficaz quando se trabalha com formatos de documentação padronizados ou quando existem padrões consistentes nos dados.

Chain-of-thought solicitando

Chain-of-thought A solicitação (CoT) orienta o LLM em um processo de step-by-step raciocínio. Isso o torna valioso para tarefas complexas de apoio à decisão médica e raciocínio diagnóstico. Ao instruir explicitamente o modelo a “pensar passo a passo” ao analisar cenários clínicos, você pode melhorar sua capacidade de seguir protocolos de raciocínio médico e reduzir os erros de diagnóstico.

Essa técnica é excelente quando o raciocínio clínico requer várias etapas lógicas, como diagnóstico diferencial ou planejamento de tratamento. No entanto, essa abordagem tem limitações ao lidar com conhecimento médico altamente especializado fora dos dados de treinamento do modelo ou quando é necessária precisão absoluta para decisões de cuidados intensivos.

Nesses casos, combinar o CoT com outra abordagem pode gerar melhores resultados. Uma opção é combinar CoT com solicitações de autoconsistência. Para obter mais informações, consulte Melhorar o desempenho de modelos de linguagem generativa com solicitações de autoconsistência no Amazon Bedrock (AWS postagem do blog). Outra opção é combinar estruturas de raciocínio, como ReAct prompting, com o RAG. Para obter mais informações, consulte Desenvolver assistentes avançados baseados em bate-papo com IA generativa usando RAG e ReAct prompting (orientação prescritiva).AWS

Geração aumentada via recuperação

A Retrieval Augmented Generation (RAG) é uma tecnologia generativa de IA na qual um LLM faz referência a uma fonte de dados autorizada que está fora de suas fontes de dados de treinamento antes de gerar uma resposta. Um sistema RAG pode recuperar informações de ontologia médica (como classificações internacionais de doenças, arquivos nacionais de medicamentos e títulos de assuntos médicos) de uma fonte de conhecimento. Isso fornece contexto adicional ao LLM para apoiar a tarefa médica de PNL.

Conforme discutido na Combinando o Amazon Comprehend Medical com grandes modelos de linguagem seção, você pode usar uma abordagem RAG para recuperar o contexto do Amazon Comprehend Medical. Outras fontes de conhecimento comuns incluem dados de domínio médico que são armazenados em um serviço de banco de dados, como Amazon OpenSearch Service, Amazon Kendra ou Amazon Aurora. Extrair informações dessas fontes de conhecimento pode afetar o desempenho da recuperação, especialmente com consultas semânticas que usam um banco de dados vetoriais.

Outra opção para armazenar e recuperar conhecimento específico do domínio é usar o Amazon Q Business em seu fluxo de trabalho do RAG. O Amazon Q Business pode indexar repositórios internos de documentos ou sites públicos (como CMS.gov para dados do ICD-10). O Amazon Q Business pode então extrair informações relevantes dessas fontes antes de passar sua consulta para o LLM.

Há várias maneiras de criar um fluxo de trabalho de RAG personalizado. Por exemplo, há muitas maneiras de recuperar dados de uma fonte de conhecimento. Para simplificar, recomendamos a abordagem comum de recuperação de usar um banco de dados vetoriais, como o Amazon OpenSearch Service, para armazenar conhecimento como incorporações. Isso exige que você use um modelo de incorporação, como um transformador de frases, para gerar incorporações para a consulta e para o conhecimento armazenado no banco de dados vetoriais.

Para obter mais informações sobre abordagens RAG totalmente gerenciadas e personalizadas, consulte Opções e arquiteturas de geração aumentada de recuperação em. AWS

Ajuste fino

O ajuste fino de um modelo existente envolve usar um LLM, como um modelo Amazon Titan, Mistral ou Llama, e depois adaptar o modelo aos seus dados personalizados. Existem várias técnicas de ajuste fino, a maioria das quais envolve a modificação de apenas alguns parâmetros em vez de modificar todos os parâmetros do modelo. Isso é chamado de ajuste fino com eficiência de parâmetros (PEFT). Para obter mais informações, consulte Hugging Face PEFT ativado. GitHub

A seguir estão dois casos de uso comuns em que você pode optar por ajustar um LLM para uma tarefa médica de PNL:

Tarefa generativa — modelos baseados em decodificador realizam tarefas generativas de IA. AI/ML os profissionais usam dados reais básicos para ajustar um LLM existente. Por exemplo, você pode treinar o LLM usando o MedQuAD, um conjunto de dados público de respostas a perguntas médicas. Ao invocar uma consulta para o LLM ajustado, você não precisa de uma abordagem RAG para fornecer o contexto adicional ao LLM.
Incorporações — modelos baseados em codificadores geram incorporações transformando texto em vetores numéricos. Esses modelos baseados em codificadores são normalmente chamados de modelos de incorporação. Um modelo de transformador de frases é um tipo específico de modelo de incorporação otimizado para sentenças. O objetivo é gerar incorporações a partir do texto de entrada. As incorporações são então usadas para análise semântica ou em tarefas de recuperação. Para ajustar o modelo de incorporação, você deve ter um conjunto de conhecimentos médicos, como documentos, que possa ser usado como dados de treinamento. Isso é feito com pares de texto baseados em semelhança ou sentimento para ajustar um modelo de transformador de frases. Para obter mais informações, consulte Treinando e ajustando modelos de incorporação com Sentence Transformers v3 em Hugging Face.

Você pode usar o Amazon SageMaker Ground Truth para criar um conjunto de dados de treinamento rotulado e de alta qualidade. Você pode usar a saída de conjunto de dados rotulado do Ground Truth para treinar seus próprios modelos. Você também pode usar a saída como um conjunto de dados de treinamento para um modelo de SageMaker IA da Amazon. Para obter mais informações sobre reconhecimento de entidade nomeada, classificação de texto com rótulo único e classificação de texto com vários rótulos, consulte Rotulagem de texto com Ground Truth na documentação da Amazon SageMaker AI.

Para obter mais informações sobre o ajuste fino, consulte este Ajustando grandes modelos de linguagem na área da saúde guia.

Escolhendo um LLM

O Amazon Bedrock é o ponto de partida recomendado para avaliar o alto desempenho LLMs. Para obter mais informações, consulte Modelos de fundação compatíveis no Amazon Bedrock. Você pode usar trabalhos de avaliação de modelos no Amazon Bedrock para comparar as saídas de várias saídas e, em seguida, escolher o modelo mais adequado ao seu caso de uso. Para obter mais informações, consulte Escolha o modelo de melhor desempenho usando as avaliações do Amazon Bedrock na documentação do Amazon Bedrock.

Alguns LLMs têm treinamento limitado em dados do domínio médico. Se seu caso de uso exigir o ajuste fino de um LLM ou de um LLM que o Amazon Bedrock não suporta, considere usar o Amazon AI. SageMaker Na SageMaker IA, você pode usar um LLM ajustado ou escolher um LLM personalizado que tenha sido treinado em dados do domínio médico.

A tabela a seguir lista pessoas populares LLMs que foram treinadas em dados do domínio médico.

LLM	Tarefas	Conhecimento	Arquitetura
BioBert	Recuperação de informações, classificação de texto e reconhecimento de entidade nomeada	Resumos de PubMed, artigos em texto completo e conhecimento geral do PubMedCentral domínio	Codificador
Clínica Albert	Recuperação de informações, classificação de texto e reconhecimento de entidade nomeada	Grande conjunto de dados multicêntrico, juntamente com mais de 3.000.000 de registros de pacientes de sistemas de prontuário eletrônico de saúde (EHR)	Codificador
GPT clínico	Sumarização, resposta a perguntas e geração de texto	Conjuntos de dados médicos extensos e diversos, incluindo registros médicos, conhecimento específico do domínio e consultas de diálogo em várias rodadas	Decodificador
GatorTron-GO	Sumarização, resposta a perguntas, geração de texto e recuperação de informações	Notas clínicas e literatura biomédica	Codificador
Med-bert	Recuperação de informações, classificação de texto e reconhecimento de entidade nomeada	Grande conjunto de dados de textos médicos, notas clínicas, trabalhos de pesquisa e documentos relacionados à saúde	Codificador
Palmeira vermelha	Resposta a perguntas para fins médicos	Conjuntos de dados de textos médicos e biomédicos	Decodificador
Medalha Paca	Tarefas de resposta a perguntas e diálogo médico	Uma variedade de textos médicos, abrangendo recursos como flashcards médicos, wikis e conjuntos de dados de diálogos	Decodificador
BioMedBert	Recuperação de informações, classificação de texto e reconhecimento de entidade nomeada	Exclusivamente resumos PubMed e artigos em texto completo de PubMedCentral	Codificador
BioMedLM	Sumarização, resposta a perguntas e geração de texto	Literatura biomédica a partir de fontes de PubMed conhecimento	Decodificador

A seguir estão as melhores práticas para o uso de médicos LLMs pré-treinados:

Entenda os dados de treinamento e sua relevância para sua tarefa médica de PNL.
Identifique a arquitetura LLM e sua finalidade. Os codificadores são apropriados para incorporações e tarefas de PNL. Os decodificadores são para tarefas de geração.
Avalie os requisitos de infraestrutura, desempenho e custo para hospedar o LLM médico pré-treinado.
Se for necessário um ajuste fino, garanta a veracidade ou o conhecimento precisos dos dados de treinamento. Certifique-se de mascarar ou redigir qualquer informação de identificação pessoal (PII) ou informação de saúde protegida (PHI).

As tarefas de PNL médica do mundo real podem ser diferentes das pré-treinadas LLMs em termos de conhecimento ou casos de uso pretendidos. Se um LLM específico de domínio não atender aos seus benchmarks de avaliação, você pode ajustar um LLM com seu próprio conjunto de dados ou treinar um novo modelo básico. Treinar um novo modelo de fundação é uma tarefa ambiciosa e, muitas vezes, cara. Para a maioria dos casos de uso, recomendamos ajustar um modelo existente.

Quando você usa ou ajusta um LLM médico pré-treinado, é importante abordar a infraestrutura, a segurança e as barreiras de proteção.

Infraestrutura

Em comparação com o uso do Amazon Bedrock para inferência sob demanda ou em lote, hospedar LLMs médicos pré-treinados (geralmente da Hugging Face) requer recursos significativos. Para hospedar LLMs médicos pré-treinados, é comum usar uma imagem de SageMaker IA da Amazon que é executada em uma instância do Amazon Elastic Compute Cloud (Amazon EC2) com uma ou GPUs mais, como instâncias ml.g5 para computação acelerada ou instâncias ml.inf2 para. AWS Inferentia Isso ocorre porque LLMs consome uma grande quantidade de memória e espaço em disco.

Segurança e grades de proteção

Dependendo dos requisitos de conformidade da sua empresa, considere usar o Amazon Comprehend e o Amazon Comprehend Medical para mascarar ou redigir informações de identificação pessoal (PII) e informações de saúde protegidas (PHI) dos dados de treinamento. Isso ajuda a evitar que o LLM use dados confidenciais ao gerar respostas.

Recomendamos que você considere e avalie preconceitos, imparcialidade e alucinações em seus aplicativos generativos de IA. Se você estiver usando um LLM preexistente ou ajustando um, implemente grades de proteção para evitar respostas prejudiciais. As grades de proteção são proteções que você personaliza de acordo com seus requisitos generativos de aplicativos de IA e políticas de IA responsáveis. Por exemplo, você pode usar o Amazon Bedrock Guardrails.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Combinando o Amazon Comprehend Medical com LLMs

Ajuste fino LLMs