Web开发

首页 » 常识 » 问答 » 利用百度地图开放平台处理患者地址信息数据
TUhjnbcbe - 2023/2/3 21:36:00

以百度地图开放平台为例,介绍了使用地址解析聚合服务将非结构化地址数据解析成结构化地址数据的方法,并且应用在患者地址信息数据清洗,同时,介绍了使用地址输入提示服务进行快速的地址录入,以及该服务在患者信息登记中的应用。从地址输入提示服务和地址解析聚合服务与集成平台的整合、网络结构部署、应用场景等几个方面阐述了具体的实现方式及应用效果。

在医疗大数据的浪潮下,医院都建立了自己的临床数据中心(ClinicalDataResposiry,CDR),医院内各种医疗过程及其相关数据的聚合和集中。为使各系统能够通过患者全局数据库中的唯一ID,进行跨系统信息检索与共享,需对全局患者信息库中数据按匹配算法进行清洗合并,建立患者信息唯一索引与各系统的数据建立关联。建立这种关联的系统便是患者主索引,它承担着患者身份信息登记、更新、匹配、识别等职能,能够通过自定义的算法将同一患者在不同时期,采用不同个人信息登记的就诊的信息关联在一起。地址信息作为患者个人信息的重要组成部分,在患者的身份识别中扮演着重要角色,早期的患者各种地址信息(如户籍地址、常住地址、单位地址等)采用手动录入的形式登记到系统,不规范和结构化程度低的地址信息对患者的身份识别和匹配工作造成了很大的困难,由于数据量巨大,采用人工的方式去修正也存在巨大的工作量,同时,准确性也很难保证。近来年,由于自然语言处理(NaturalLanguageProcessing,NLP)技术的兴起,同时诸如百度之类的互联网企业开放了各种基于互联网的地址处理服务,便尝试借助这些服务,对患者信息中的地址数据进行结构化处理并应用,取得了非常好的成效。

患者地址信息处理的现状

患者地址登记现状

目前的患者基本信息从HIS(医院信息系统)挂号时由挂号收费员进行登记,由于窗口业务繁忙,登记患者的详细地址不但耗时,而且极易由于各种外部原因而发生登记错误的情况,为了缩短挂号登记的时间,很多患者的地址信息只登记了乡镇或者小区,对于楼栋号、单元号和门牌号采用简单的数字和连字符表示,甚至没有填写,造成地址内容缺失,结构化程度低,精度低。

目前地址匹配采用的算法及其缺陷

非结构化的地址数据作为一种字符型的数据,在对患者主索引中的患者信息进行匹配时,一般采用字符串相似度匹配算法对两个患者的地址信息相似度进行匹配,得到相似度值后再乘以地址属性所占整个匹配规则的权重,最终得到地址信息相似度的得分。目前采用较多的字符串相似度匹配算法为编辑距离算法,编辑距离,又称Levenshtein距离(莱文斯坦距离,也叫做EditDistance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。可以看出,编辑距离算法仅仅从文本形式上计算两个字符串的相似度,而不能够从字符内涵上计算两个字符串的相似度。比如通过编辑距离算法,“医院”和“医院”两个字符串的相似度不为1,但就患者的地址信息而言,这两个字符串表示的是同一个地址,可见,采用传统的字符串相似度匹配算法无法进行字符串的内涵匹配,对于这种同一地址多种名称的情况无法进行精确的识别。

地址输入提示服务和地址解析聚合服务的优势和作用

概述

医院进行联系患者、随访等业务的重要信息,医院医疗服务的质量,在公共卫生领域,联系地址也是重要的信息之一,即便采用《GB/T-中华人民共和国行*区划代码》建立联动选择的录入机制,也只能精确到区县一级,剩余街道(乡镇)、社区(村)、小区楼栋号等信息需要手动录入,对窗口登记的可操作性较低,地址录入的效率也不高。同样,对非结构化的患者历史地址数据的处理需要类似自然语言处理等高级技术,医院作为主要提供医疗健康的服务的机构,没有能力去收集所有地址信息并建立数据库供自己的信息系统使用,也无法采购或者研发自然语言处理引擎去处理历史地址数据,而互联网企业依托其强大技术和业务优势,已经建立了一套完整的覆盖全国的地址信息库,并且这些库也在不断更新,同时,互联网企业将这些数据以服务和SDK的形式进行分发和向外提供,仅需要简单的申请和授权即可使用。

地址输入提示服务的作用

匹配用户输入内容,提供输入提示功能。用户可通过该服务,匹配用户输入关键词的地点推荐列表。

地址解析聚合的作用

结合自然语言理解能力,可以对地址信息按照文本信息、空间位置信息等因子进行区域化聚合。同时也可解析并提取地址中核心结构,如行*区划(省、市、区、乡镇)、街道、POI,以及地址中的联系人,联系方式等信息,并对地址进行一定的补全和纠错。包含两种模式,聚合模式——将地址按照基础地物进行分类聚合,结合百度地图领先的地图地理信息解析能力以及百度NLP自然语言能力,对地址信息进行结构化理解,并结合基础地图单位进行位置聚合。目前可聚合的单位为:省、市、区县、乡镇街道、道路、路段、末端地点(POI或AOI);标准化模式——结构化解析并提取复杂地址中的核心内容,包含人名、联系方式、行*区划结构(省、市、区县、乡镇街道)、POI信息。

地址输入提示服务和地址解析聚合服务的集成方式

整体架构设计

百度地图Web服务API为开发者提供

1
查看完整版本: 利用百度地图开放平台处理患者地址信息数据