Avaliação da portabilidade de fenótipos computáveis com processamento de linguagem natural na rede eMERGE

Scientific Reports volume 13, Número do artigo: 1971 (2023) Citar este artigo

1055 Acessos

6 Altmétrica

Detalhes das métricas

A Electronic Medical Records and Genomics Network (eMERGE) avaliou a viabilidade de implantar algoritmos portáteis baseados em regras de fenótipos com componentes de processamento de linguagem natural (NLP) adicionados para melhorar o desempenho dos algoritmos existentes usando registros eletrônicos de saúde (EHRs). Com base no mérito científico e na dificuldade prevista, o eMERGE selecionou seis fenótipos existentes para melhorar com NLP. Avaliamos desempenho, portabilidade e facilidade de uso. Resumimos as lições aprendidas por: (1) desafios; (2) as melhores práticas para lidar com os desafios com base nas evidências existentes e/ou na experiência do eMERGE; e (3) oportunidades para pesquisas futuras. A adição de NLP resultou em precisão melhorada ou igual e/ou recuperação para todos os algoritmos, exceto um. Portabilidade, fluxo de trabalho/processo de fenotipagem e tecnologia foram temas importantes. Com a PNL, o desenvolvimento e a validação levaram mais tempo. Além da portabilidade da tecnologia NLP e da replicabilidade do algoritmo, os fatores para garantir o sucesso incluem proteção de privacidade, configuração de infraestrutura técnica, contrato de propriedade intelectual e comunicação eficiente. Melhorias no fluxo de trabalho podem melhorar a comunicação e reduzir o tempo de implementação. O desempenho da PNL variou principalmente devido à heterogeneidade dos documentos clínicos; portanto, sugerimos o uso de notas semiestruturadas, documentação abrangente e opções de personalização. A portabilidade do NLP é possível com o desempenho aprimorado do algoritmo de fenótipo, mas o planejamento cuidadoso e a arquitetura dos algoritmos são essenciais para oferecer suporte a personalizações locais.

A extração precisa de informações fenotípicas completas e detalhadas de dados de registros eletrônicos de saúde (EHR) em grande escala melhora a eficiência e a precisão da pesquisa em medicina de precisão. No entanto, os dados estruturados sozinhos geralmente são insuficientes para identificar ou descrever completamente muitas condições, principalmente quando um atributo não é comumente cobrado ou requer uma interpretação diferenciada1,2,3,4. O processamento de linguagem natural (NLP) e o aprendizado de máquina (ML) prometem permitir a fenotipagem profunda usando narrativas de EHR diferenciadas5,6,7,8.

Ambos os pipelines sofisticados de NLP, como MedLEE9, CLAMP10, cTAKES11 e MetaMap12,13; e abordagens baseadas em regras mais simples que combinam expressões regulares (RegEx) e lógica; têm sido cada vez mais aproveitados para fenotipagem profunda14. No entanto, é um desafio alcançar ampla generalização e portabilidade do algoritmo de fenótipo, dados os sistemas EHR díspares e as abordagens de documentação heterogêneas usadas pelos médicos15. Por exemplo, Sohn et al. relataram como as variações na documentação clínica relacionada à asma entre duas coortes afetam a portabilidade do sistema de PNL16. Além disso, os tipos e estruturas de documentos variam entre os EHRs, e alguns sites têm mais dados não estruturados do que outros. Abreviaturas, terminologias e outros usos de linguagem também variam entre sites, médicos e tempo. Por exemplo, Adekkanattu et al. relataram variabilidade no desempenho do sistema devido à heterogeneidade dos formatos de texto local e termos lexicais usados para documentar vários conceitos, em três instituições diferentes avaliando a portabilidade de um sistema especializado de extração de informações de ecocardiografia17.

A comunidade biomédica de PNL desenvolveu uma série de abordagens para abordar essas questões, incluindo a medição da similaridade semântica de texto, implantação de sistemas NLP ensemble, uso de dicionários de termos abrangentes e conversão de texto em padrões de dados, como Fast Health Interoperability Resources (FHIR) e o Observational Medical Outcomes Partnership (OMOP) modelo de dados comum (CDM)18. Especificamente, Liu et al.19 demonstraram que conjuntos de sistemas de NLP podem melhorar a portabilidade por meio do reconhecimento de conceito fenotípico genérico e da identificação de conceito fenotípico específico do paciente em relação a sistemas individuais. Além disso, Jiang et al. aproveitou o padrão FHIR para desenvolver um pipeline de normalização de dados escalonável que integra dados clínicos estruturados e não estruturados para fenotipagem20. Por último, Sharma et al. desenvolveu um sistema NLP portátil extraindo conceitos de fenótipo, normalizando-os usando o Unified Medical Language System (UMLS) e mapeando-os para o OMOP CDM21.

2 h to run", in response to which the site extracted the Python code and deployed directly to the server with augmented memory and disk space. Filtering of notes was a prevalent performance related theme. Some NLP algorithms as deployed would process all clinical notes, which at some sites was not feasible because of the very large numbers of notes at those sites, which at least at 1 site, were over 1 million notes, even after filtering. To address this, sites applied filters either by pre-selecting patients for whom to process notes or narrowing down to the appropriate clinical note types to process. Pre-selection/filtering of patients was very broad, such as selecting all patients whom had any diagnosis code for, or related to, the given phenotype./p>

Notícias

Avaliação da portabilidade de fenótipos computáveis ​​com processamento de linguagem natural na rede eMERGE

Avaliação da portabilidade de fenótipos computáveis com processamento de linguagem natural na rede eMERGE