Avaliação da portabilidade de fenótipos computáveis com processamento de linguagem natural na rede eMERGE
Scientific Reports volume 13, Número do artigo: 1971 (2023) Citar este artigo
1055 Acessos
6 Altmétrica
Detalhes das métricas
A Electronic Medical Records and Genomics Network (eMERGE) avaliou a viabilidade de implantar algoritmos portáteis baseados em regras de fenótipos com componentes de processamento de linguagem natural (NLP) adicionados para melhorar o desempenho dos algoritmos existentes usando registros eletrônicos de saúde (EHRs). Com base no mérito científico e na dificuldade prevista, o eMERGE selecionou seis fenótipos existentes para melhorar com NLP. Avaliamos desempenho, portabilidade e facilidade de uso. Resumimos as lições aprendidas por: (1) desafios; (2) as melhores práticas para lidar com os desafios com base nas evidências existentes e/ou na experiência do eMERGE; e (3) oportunidades para pesquisas futuras. A adição de NLP resultou em precisão melhorada ou igual e/ou recuperação para todos os algoritmos, exceto um. Portabilidade, fluxo de trabalho/processo de fenotipagem e tecnologia foram temas importantes. Com a PNL, o desenvolvimento e a validação levaram mais tempo. Além da portabilidade da tecnologia NLP e da replicabilidade do algoritmo, os fatores para garantir o sucesso incluem proteção de privacidade, configuração de infraestrutura técnica, contrato de propriedade intelectual e comunicação eficiente. Melhorias no fluxo de trabalho podem melhorar a comunicação e reduzir o tempo de implementação. O desempenho da PNL variou principalmente devido à heterogeneidade dos documentos clínicos; portanto, sugerimos o uso de notas semiestruturadas, documentação abrangente e opções de personalização. A portabilidade do NLP é possível com o desempenho aprimorado do algoritmo de fenótipo, mas o planejamento cuidadoso e a arquitetura dos algoritmos são essenciais para oferecer suporte a personalizações locais.
A extração precisa de informações fenotípicas completas e detalhadas de dados de registros eletrônicos de saúde (EHR) em grande escala melhora a eficiência e a precisão da pesquisa em medicina de precisão. No entanto, os dados estruturados sozinhos geralmente são insuficientes para identificar ou descrever completamente muitas condições, principalmente quando um atributo não é comumente cobrado ou requer uma interpretação diferenciada1,2,3,4. O processamento de linguagem natural (NLP) e o aprendizado de máquina (ML) prometem permitir a fenotipagem profunda usando narrativas de EHR diferenciadas5,6,7,8.
Ambos os pipelines sofisticados de NLP, como MedLEE9, CLAMP10, cTAKES11 e MetaMap12,13; e abordagens baseadas em regras mais simples que combinam expressões regulares (RegEx) e lógica; têm sido cada vez mais aproveitados para fenotipagem profunda14. No entanto, é um desafio alcançar ampla generalização e portabilidade do algoritmo de fenótipo, dados os sistemas EHR díspares e as abordagens de documentação heterogêneas usadas pelos médicos15. Por exemplo, Sohn et al. relataram como as variações na documentação clínica relacionada à asma entre duas coortes afetam a portabilidade do sistema de PNL16. Além disso, os tipos e estruturas de documentos variam entre os EHRs, e alguns sites têm mais dados não estruturados do que outros. Abreviaturas, terminologias e outros usos de linguagem também variam entre sites, médicos e tempo. Por exemplo, Adekkanattu et al. relataram variabilidade no desempenho do sistema devido à heterogeneidade dos formatos de texto local e termos lexicais usados para documentar vários conceitos, em três instituições diferentes avaliando a portabilidade de um sistema especializado de extração de informações de ecocardiografia17.
A comunidade biomédica de PNL desenvolveu uma série de abordagens para abordar essas questões, incluindo a medição da similaridade semântica de texto, implantação de sistemas NLP ensemble, uso de dicionários de termos abrangentes e conversão de texto em padrões de dados, como Fast Health Interoperability Resources (FHIR) e o Observational Medical Outcomes Partnership (OMOP) modelo de dados comum (CDM)18. Especificamente, Liu et al.19 demonstraram que conjuntos de sistemas de NLP podem melhorar a portabilidade por meio do reconhecimento de conceito fenotípico genérico e da identificação de conceito fenotípico específico do paciente em relação a sistemas individuais. Além disso, Jiang et al. aproveitou o padrão FHIR para desenvolver um pipeline de normalização de dados escalonável que integra dados clínicos estruturados e não estruturados para fenotipagem20. Por último, Sharma et al. desenvolveu um sistema NLP portátil extraindo conceitos de fenótipo, normalizando-os usando o Unified Medical Language System (UMLS) e mapeando-os para o OMOP CDM21.