(12)发明专利申请
(10)申请公布号 CN 111428093 A(43)申请公布日 2020.07.17
(21)申请号 202010234576.X(22)申请日 2020.03.27
(71)申请人 成都数联铭品科技有限公司
地址 610093 四川省成都市武侯区天府大
道北段966号天府国际金融中心9号楼(72)发明人 杨李伟 韩远 吴桐 刘世林
尹康 (51)Int.Cl.
G06F 16/901(2019.01)G06F 16/904(2019.01)G06F 16/36(2019.01)G06F 16/34(2019.01)
权利要求书2页 说明书6页 附图3页
()发明名称
基于实体对齐的可视化图谱融合方法及系统
(57)摘要
本发明涉及基于实体对齐的可视化图谱融合方法及系统;本发明方法及系统,获取第一图谱对应数据,获取第二图谱对应数据;将第一图谱和第二图谱在可视化界面中分别展示出来;获取第一图谱和第二图谱中的同名实体节点;断第一图谱和第二图谱中的同名节点是否是同一实体;如果是同一实体,则在可视化界面中将同名节点合并,进而实现了第一图谱和第二图谱的可视化融合。在可视化界面中直观展示图谱的融合过程,逻辑非常清楚,数据源对比和联合分析过程更加明确;具有极好的界面亲和性。在多方数据联合调查过程中有极好的应用效果。并且在同名自然人实体识别过程中采用多特征综合判断,判断识别准确率高。
CN 111428093 ACN 111428093 A
权 利 要 求 书
1/2页
1.基于实体对齐的可视化图谱融合方法,其特征在于,包含以下实现步骤:S1获取第一图谱对应数据,获取第二图谱对应数据;
S2将第一图谱和第二图谱在可视化界面中分别展示出来;S3获取第一图谱和第二图谱中的同名实体节点;
S4判断第一图谱和第二图谱中的同名节点是否是同一实体;S5在可视化界面中将判断为同一实体的同名节点合并。2.如权利要求1所述的方法,其特征在于,所述步骤S4中,判断为同一实体的节点数据合并,并添加标签。
3.如权利要求2所述的方法,其特征在于,所述步骤S5合并后的节点在图谱中区别显示。
4.如权利要求2所述的方法,其特征在于,所述方法步骤S3之前还包括图谱融合的触发步骤。
5.如权利要求3所述的方法,其特征在于,所述步骤S3中的实体为自然人或者企业。6.如权利要求5所述的方法,其特征在于,所述步骤S5中对于识别到的同名企业节点直接进行节点合并。
7.如权利要求6所述的方法,其特征在于,所述步骤S4中对于识别到的同名自然人节点通过以下方式判断是否是同一人:
S4-1获取数据库中企业数据,所述企业数据包含投资关系、主要相关自然人、企业地址、企业名称;
S4-2获取与第一图谱、第二图谱中同名自然人节点最直接相连的企业名称;S4-3用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型;
S4-4使用标注数据训练模型;
S4-5将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。
8.如权利要求7所述的方法,其特征在于;所述步骤S4-3中的投资路径数据为两企业之间的最短投资路径。
9.如权利要求8所述的方法,其特征在于所述步骤S4-5中,所述企业名称相似性通过关键字最长公共子序列来计算。
10.如权利要求9所述的方法,其特征在于,所述步骤S4-6中所述企业地址相似性判断按照省、市、区、街道、建筑的顺序进行逐级匹配,匹配成功为1,匹配失败相应位置为0。
11.如权利要求10所述的方法,其特征在于,所述模型公式为:
其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。
12.如权利要求11所述的方法,其特征在于,所述模型训练过程中损失函数的公式如
2
CN 111428093 A
权 利 要 求 书
2/2页
下:
其中J(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。
13.基于实体对齐的可视化图谱融合方法系统,其特征在于:所述系统通过如权利要求1至12之一的方法完成知识图谱的融合创建。
3
CN 111428093 A
说 明 书
基于实体对齐的可视化图谱融合方法及系统
1/6页
技术领域
[0001]本发明涉及知识图谱领域,特别涉及基于实体对齐的可视化图谱融合方法及系统。
背景技术
[0002]目前的数据融合和图谱融合是大数据行业的痛点难点,在某些场景下需要对来自不同数据源的图谱进行联合分析,需要进行图谱和数据的融合,现阶段下,实现图谱融合的主要通过数据融合来实现,即在拿到两个数据源的数据后,针对需要联合分析或者对比的两个图谱,在后台数据层面先进行数据处理,将属于同一实体的节点数据在后头进行合并。处理后的数据再进行图谱展示,展示到可视化界面中时已经是融合后的图谱。无法展示出两个图谱的从到融合的动态逻辑过程。
[0003]况且目前针对实体唯一性识别特别是自然人的实体唯一性识别在缺乏身份证数据的情况下是非常困难的。因为日常生活中自然人重名的情况十分常见。缺乏身份证数据的情况下,不能随意将图谱上的同名自然人进行合并。发明内容
[0004]本发明的目的在于提供基于实体对齐的可视化图谱融合方法及系统;直观展示不同数据源图谱的融合过程;为图谱调查,多数据源融合和联合调查提供重要方法和工具。[0005]并且充分挖掘数据的关联性,发挥数据集成分析的优势;引入机器学习方法,综合多个数据特征,对不同企业的重要同名自然人是否是同一自然人做出准确的判断。本专利中自然人为企业的主要股东、董事、监事、高管等。[0006]为解决上述技术问题,本发明实施例提供了以下技术方案:[0007]基于实体对齐的可视化图谱融合方法,包含以下实现步骤:[0008]S1获取第一图谱对应数据,获取第二图谱对应数据;
[0009]S2将第一图谱和第二图谱在可视化界面中分别展示出来;[0010]S3获取第一图谱和第二图谱中的同名实体节点;
[0011]S4判断第一图谱和第二图谱中的同名节点是否是同一实体;[0012]S5在可视化界面中将判断为同一实体的同名节点合并。[0013]进一步的,所述步骤S4中,判断为同一实体的节点数据合并,并添加标签。[0014]进一步的,所述步骤S5合并后的节点在图谱中突出显示。[0015]进一步的,所述方法步骤S3之前还包括图谱融合的触发步骤。[0016]作为一种优选,所述触发操作可以在可视化界面中功能按钮的形式实现。[0017]进一步的,所述步骤S3中的实体为自然人或者企业。[0018]作为一种优选,对于识别到的同名企业节点直接进行节点合并。[0019]作为一种优选,对于识别到的同名自然人节点通过以下方式判断是否是同一人:[0020]S4-1获取数据库中企业数据,所述企业数据包含投资关系、主要相关自然人、企业
4
CN 111428093 A
说 明 书
2/6页
地址、企业名称;
[0021]S4-2获取第一图谱中和第二图谱中与该同名自然人节点最直接相连的企业名称;[0022]S4-3用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型;
[0023]S4-4使用标注数据训练模型;
[0024]S4-5将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。[0025]作为一种优选,所述步骤S4-3中的投资路径数据为两企业之间的最短投资路径。[0026]作为一种优选,所述企业名称相似性通过关键字最长公共子序列来计算。[0027]作为一种优选,所述企业地址相似性判断中按照省、市、区、街道、建筑的顺序进行逐级匹配,匹配成功为1,匹配失败相应位置为0。[0028]作为一种优选,所述模型公式为:
[0029]
[0030]
其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。[0031]作为一种优选,所述模型训练过程中损失函数的公式如下:
[0032]
其中J(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。[0034]进一步的,本发明提供基于实体对齐的可视化图谱融合方法系统,所述系统通过所述基于实体对齐的可视化图谱融合方法完成知识图谱的融合创建。[0035]所述系统包含数据存储模块,数据处理模块,可视化显示模块;[0036]所述数据存储模块,数据处理模块,可视化显示模块依次相连;[0037]所述数据存储模块,存储数据处理模块的输入和输出的数据;[0038]所述数据处理模块,通过上述方法完成图谱融合创建;[0039]所述可视化显示模块,实现图谱的显示,以及节点的融合显示。[0040]与现有技术相比,本发明方法及系统具有以下有益效果:本发明方法及系统获取第一图谱对应数据,获取第二图谱对应数据;将第一图谱和第二图谱在可视化界面中分别展示出来;获取第一图谱和第二图谱中的同名实体节点;断第一图谱和第二图谱中的同名节点是否是同一实体;如果是同一实体,则在可视化界面中将同名节点合并,进而实现了第一图谱和第二图谱的可视化融合。在可视化界面中直观展示图谱的融合过程,逻辑非常清楚,数据源对比和联合分析过程更加明确;具有极好的界面亲和性。在多方数据联合调查过程中有广泛的用途;并且在同名自然人实体识别过程中采用多特征综合判断,判断识别准确率高。
[0033]
5
CN 111428093 A
说 明 书
3/6页
附图说明
[0041]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0042]图1为本发明方法实现步骤示意图。
[0043]图2为同名自然人唯一性判断实现步骤示意图。[0044]图3为实施例1为融合前图谱展示示意图。[0045]图4为实施例1为融合后图谱展示示意图。
具体实施方式
[0046]下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。[0047]本发明实施例提供了以下技术方案:基于实体对齐的可视化图谱融合方法,包含如图1所示的以下实现步骤:
[0048]S1获取第一图谱对应数据,获取第二图谱对应数据;
[0049]S2将第一图谱和第二图谱在可视化界面中分别展示出来;[0050]S3获取第一图谱和第二图谱中的同名实体节点;
[0051]S4判断第一图谱和第二图谱中的同名节点是否是同一实体;[0052]S5在可视化界面中将判断为同一实体的同名节点合并,进而实现了第一图谱和第二图谱的可视化融合。在可视化界面中直观展示图谱的融合过程,逻辑清楚,数据源对比和联合分析过程更加明确;具有极好的界面亲和性。在多方数据联合调查过程中有极好的应用效果。
[0053]进一步的,所述步骤S4中,判断为同一实体的节点数据合并,并添加标签。将经过判断属于同一实体的节点数据进行合并,并且添加标签,在数据层面为后续步骤合并的节点保留更多初始信息,并且通过标签的方便在图谱节点融合过程中对合并节点进行区别显示。
[00]进一步的,所述步骤S5经过识别合并后的节点在图谱中区别显示。区别突出显示是指对节点做高亮、灰度、阴影、标识(包括文字、图标或者颜色)或者加粗等处理,使得合并后的节点在图谱中区别于未经合并的普通节点。这样两个图谱融合后可以清晰的看出两个图谱融合的连接点;在业务场景的意义为,可以看到不同数据源是经过什么共同的数据的来融合的,分析过程更加明晰,一目了然;对于联合分析具有重要的使用价值。[0055]进一步的,所述方法步骤S3之前还包括图谱融合、同名节点自动合并的触发过程;用户可以根据需要来触发不同图谱中同名实体节点是否是同一实体的自动判断和图谱融合过程。
6
CN 111428093 A[0056]
说 明 书
4/6页
作为一种优选,所述触发可以在可视化界面中功能按钮的形式实现。在两张知识
图谱在界面对应显示后,用户可以根据需要,点击对应功能按钮来触发两图谱中同名自然人的自动判断和图谱的自动融合,操作的亲和性更好。同时本发明方法同名节点和识别和合并由后台自动计算执行,具有更高的处理效率。进一步的,所述步骤S3中的实体为自然人或者企业。
[0057]作为一种优选,对于识别到的同名企业节点直接进行节点合并。[0058]作为一种优选,对于识别到的同名自然人节点通过如图2所示的以下方式判断是否是同一人:同名自然人是否是同一人的判断依赖于不同的数据情形,本发明以企业数据中同名自然人说明判断过程,对应图谱融也以企业知识图谱相关领域来进行说明;但是应该理解本发明图谱数据融合方案不限于企业知识图谱领域。[0059]S4-1获取数据库中企业数据,所述企业数据包含投资关系、主要相关自然人(主要指企业的法人代表、董事、监事、高管和主要股东等)、企业地址、企业名称;
[0060]S4-2获取第一图谱中和第二图谱中与该同名自然人节点最直接相连的企业名称;[0061]S4-3用包含企业间投资路径、企业名称相似性、企业地址相似性、两企业之间同名自然人个数的特征向量x来构建判断模型;使用综合特征来进行同名自然人是否是同一人的判断,判断的准确率更高。x=[X1 X2 X3 X4…],x为量化后的特征向量,X1为量化的企业间投资路径,X2为量化后的企业名称相似性;X3为量化后的企业地址相似性,X4为两企业间同名自然人个数。将多个特征集成一个综合特征向量,后续计算更加简单方便。[0062]S4-4使用标注数据训练模型;
[0063]S4-5将待判定企业对之间的特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。[00]所述同名判断在后台实现,判断完成后,在图谱上实现同名节点的自动合并显示。[0065]作为一种优选,所述步骤S4-3中的投资路径数据为两企业之间的最短投资路径。对应量化值取最短投资路径的倒数,比如两企业具体直接投资关系,那么X1=1/1,具有二度投资关系,X1=1/2……依次类推。[0066]作为一种优选,所述企业名称相似性通过关键字最长公共子序列来计算。比如例如:“北京中科*****创服务咨询有限公司”和“上海中科****创投资管理有限公司”的关键字分别是中科*****创;中科****创;LCS是“中科****”,长度为6;然后归一化(即除以较长的关键字长度)为5/7,既X2=5/7。[0067]作为一种优选,所述企业地址相似性判断中按照省、市、区、街道、建筑的顺序进行逐级匹配,匹配成功为1,匹配失败相应位置为0。例如:“四川省/成都市/武侯区/天府大道/966号”和“四川省/成都市/武侯区/天府大道/900号”的结果为[1 1 1 1 0]。此时所述企业地址相似度是一个5维的向量;在综合特征x=[X1 X2 X3 X4…];X3=[1 1 1 1 0]占据5位。
[0068]此种地址相似度计算中,所得到的是一个地址相似度向量,向量的不同位分别代表省、市、区、街道、建筑的符合程度,逐级缩小定位范围,计算简单且具有较高可解释性;直接作为综合向量的特征位,参与模型训练和预测,相比单纯数值,虽然增加了整个模型特征向量的纬度,但引入地址逐级对比的判断依据,丰富了综合特征数据的层次和含义;使得模型预测效果更佳。
7
CN 111428093 A[0069]
说 明 书
5/6页
进一步的,不同企业中同名自然人数量越多,企业的关系可能越密切,且同名自然
人为同一人的概率也越大。假设同名人数量为3,那么可以直接取值量化X4=3。[0070]作为一种优选,所述模型公式为:
[0071]
[0072]
其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。[0073]作为一种优选,所述模型训练过程中损失函数的公式如下:
[0074]
其中J(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。[0076]进一步的,本发明提供基于实体对齐的可视化图谱融合方法系统,所述系统通过所述基于实体对齐的可视化图谱融合方法完成知识图谱的融合创建。[0077]所述系统包含数据存储模块,数据处理模块,可视化显示模块;[0078]所述数据存储模块,数据处理模块,可视化显示模块依次相连;[0079]所述数据存储模块,存储数据处理模块的输入和输出的数据;[0080]所述数据处理模块,通过上述方法完成图谱融合创建;[0081]所述可视化显示模块,实现图谱的显示,以及节点的融合显示。[0082]本领域普通技术人员可以意识到,结合本文中所公开描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0083]在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,[0084]例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0085]以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。[0086]实施例1
[0087]如图3所示有以下两个数据源的图谱分别显示在界面中;其中包含同名自然人节点“张三”,经过判断,所述两个“张三”属于同一自然人;则将图谱中两个“张三”节点合并,合并后的节点突出显示,合并后实现图谱融合,如图4所示。界面中两图谱通过同名节点自
[0075]
8
CN 111428093 A
说 明 书
6/6页
动识别和合并,展现了单独图谱到融合图谱的逻辑过程;图谱展示的过程更加清楚,使用人可以更直观看到不同数据源的图谱完整清晰的融合关联的动态过程,关联逻辑层次表达更为清楚流畅;十分便于多源数据的联合分析。[0088]并且,本发明方法系统中同名节点的合并并非简单处理,而是系统自动根据所存储的企业数据来进行判断,识别的准确率高。不属于同一实体的同名节点并不会发生合并效果,图谱的融合搭建更加准确。
9
CN 111428093 A
说 明 书 附 图
1/3页
图1
10
CN 111428093 A
说 明 书 附 图
2/3页
图2
图3
11
说 明 书 附 图
图4
12
3/3页
CN 111428093 A
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务