首页 > 国家标准(GB) > GB/T 42777-2023基于文本数据的金融风险防控 知识图谱构建技术框架指南
GB/T 42777-2023

基本信息

标准号: GB/T 42777-2023

中文名称:基于文本数据的金融风险防控 知识图谱构建技术框架指南

标准类别:国家标准(GB)

英文名称:Financial risk prevention and control based on text data—Technical framework guidelines for knowledge graph construction

标准状态:现行

发布日期:2023-08-06

实施日期:2023-08-06

出版语种:简体中文

下载格式:.pdf .zip

下载大小:4731078

相关标签: 基于 数据 防控 知识 图谱 构建 技术 框架 指南

标准分类号

标准ICS号:信息技术、办公机械设备>>信息技术应用>>35.240.40信息技术在银行中的应用

中标分类号:综合>>经济、文化>>A11金融、保险

关联标准

出版信息

出版社:中国标准出版社

页数:20页

标准价格:38.0

相关单位信息

起草人:高峰、赵成刚、仲峻锋、曹馨宇、刘涌、杨斌、苗小军、胡正洪、杨娟、翟士丹、刘庆

起草单位:中国银行业协会、中国标准化研究院、中国工商银行股份有限公司、青岛银行股份有限公司、兰州银行股份有限公司、江苏江南农村商业银行股份有限公司、北京海致星图科技有限公司

归口单位:全国金融标准化技术委员会(SAC/TC 180)

发布部门:国家市场监督管理总局 国家标准化管理委员会

主管部门:全国金融标准化技术委员会(SAC/TC 180)

标准简介

本文件给出了基于文本数据的金融风险防控知识图谱与风险防控概述,提供了知识图谱构建、基于知识图谱的风险防控应用的指南。本文件适用于金融机构开展基于文本数据的金融风险防控知识图谱构建工作。


标准图片预览






标准内容

ICS35.240.40
CCS A 11
中华人民共和国国家标准
GB/T42777—2023
基于文本数据的金融风险防控
知识图谱构建技术框架指南
Financial risk prevention and control based on text data-Technical framework guidelines for knowledge graph construction2023-08-06发布
国家市场监督管理总局
国家标准化管理委员会
2023-08-06实施
规范性引用文件
术语和定义
知识图谱与风险防控概述
整体架构
基础支撑层
数据源层
知识抽取与加工层
知识管理层
知识挖掘与分析层
风险防控应用层
知识服务交互层
知识图谱构建
构建步骤
知识抽取加工
知识存储
图分析与图挖掘
6基于知识图谱的风险防控应用
风险防控关键信息及模型
6.2典型风险防控应用场景
附录A(资料性)
附录B(资料性)
参考文献
实体标准接口及参数说明示例
关系标准接口及参数说明示例…次
GB/T42777—2023
本文件按照GB/T1.1一2020《标准化工作导则起草。
GB/T42777—2023
第1部分:标准化文件的结构和起草规则》的规定请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国金融标准化技术委员会(SAC/TC180)归口。本文件起草单位:中国银行业协会、中国标准化研究院、中国工商银行股份有限公司、青岛银行股份有限公司、兰州银行股份有限公司、江苏江南农村商业银行股份有限公司、北京海致星图科技有限公司。本文件主要起草人:高峰、赵成刚、仲峻锋、曹馨宇、刘涌、杨斌、苗小军、胡正洪、杨娟、翟士丹、刘庆,1范围
基于文本数据的金融风险防控
知识图谱构建技术框架指南
GB/T42777—2023
本文件给出了基于文本数据的金融风险防控知识图谱与风险防控概述,提供了知识图谱构建、基于知识图谱的风险防控应用的指南本文件适用于金融机构开展基于文本数据的金融风险防控知识图谱构建工作。2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T36618一2018信息安全技术金融信息服务安全规范术语和定义
下列术语和定义适用于本文件。3.1
实体entity
具有独立逻辑含义的一类概念、人、事物。注:例如企业、自然人、裁判文书、标书、账户等。3.2
relationship
实体与实体之间在特定时间、特定行为下产生的联系。注:例如企业实体之间的股权关系、转账关系、担保关系等。3.3
Eattribute
实体或关系所具有的特性。
注:例如“自然人”的属性包括姓名、地址、电话等,“股权关系”的属性包括持股比例、关系建立时间等3.4
鲁knowledgegraph
知识图谱
对客观世界的概念、实体及其关系的结构化描述3.5
一致行动人
persons acting in concert
在上市公司的收购及相关股份权益变动活动中有一致行动情形的投资者。注:一致行动情形是指投资者通过协议、其他安排,与其他投资者共同扩大其所能够支配的一个上市公司股份表决权数量的行为或者事实。
GB/T42777—2023
应用程序接口
applicationprogramminginterface;API预先定义好的、无需开发者关注服务的设计与实现就能便捷地访问相关服务的一组功能或功能的组合。
知识图谱与风险防控概述
整体架构
知识图谱将数据加工为知识,并通过智能分析挖掘,提炼形成风险防控的方法和技术实施路径。基于知识图谱的风险防控整体架构如图1所示。知识
风险信号
产品风险行业风险
区域风险系统风险
政策突变外部险情
实时图查询
K层展开
最短/全路径
社区探测
环图查询
图数据存储
知识抽取
外部数据
(结构化、半结
构化、非结构化)
风险视图
移动端
基本信息风险标签
关联关系资产交易
风险事件负面奥
图谱搜素
语义解析
权重分析
企文检索
实体判断
企文检索引擎
本体设计
工商注册信息
股权关系
投资关系
大数据平台
高管信息
商机线索
风险事件
数据仓底
关系分析
投资分析股东分析
招标分析高告分析
涉诉分析担保分析
离线图查询
一对多路径
多对多路径
批量实体间
批量K层展开
实例获取
业内动态
招标信息
形态挖掘
异常借贷异常还款
并常拟保长链挖掘
款诈社区隐藏关系
图算法
连迦分支
强连通分支
度中心性
频篇了图
属性数据存储
知识融合
内部数据
(结构化、半结
构化、
非结构化)
机器学习
图1基于知识图谱的风险防控整体架构贡面坡入
风险监控
自身风险关联风险
监控名单推送管理
阅值管理信息反馈
图机器学习
分类模型
聚类模型
关联模型
回归模型
元数据配置管理
任务调度
客户信息
交易信息
业务动态
产品信息
行业关系
白然语言处理
基于知识图谱的风险防控整体架构按照数据流转方向自下而上包含基础支撑层、数据源层、知识抽2
取与加工层、知识管理层、知识挖掘与分析层、风险防控应用层和知识服务交互层,4.2基础支撑层
GB/T42777—2023
基础支撑层是知识图谱构建所需的基础技术支撑,主要包括大数据平台、数据仓库、机器学习、自然语言处理。
4.3数据源层
数据源层是知识图谱构建所需数据的最初来源。可分为金融机构内部数据源与外部数据源,其中的数据形态包括结构化数据、半结构化数据及非结构化数据。4.4知识抽取与加工层
知识抽取与加工层将数据源层的各类型数据通过知识抽取、本体设计、实例获取、知识融合、任务调度,加工形成满足要求的数据。4.5知识管理层
知识管理层将知识抽取与加工层形成的数据作为输入,通过图数据存储、全文检索引擎、属性数据存储和元数据配置管理等模块化处理,实现知识图谱展现结果的有效管理和高效访问。4.6知识挖掘与分析层
知识挖掘与分析层通过实时图查询、图谱搜索、离线图查询、图算法、图机器学习等技术,形成具有特定模式的标准化的图分析挖掘结论,服务后续风险防控应用层的构建。4.7风险防控应用层
风险防控应用层利用知识挖掘与分析层重点实现与金融有关风险的防控,包括各类金融机构所面临的信用风险、市场风险、操作风险等,通过风险信号、风险视图、关系分析、形态挖掘、风险监控,分析推演风险成因、性质、等级,形成对风险的识别、预警和处置策略4.8知识服务交互层
知识服务交互层将风险防控应用层形成的风险结果及处理机制规范化成可供各种终端或其他相关系统使用的服务,实现知识图谱风险防控方法和技术的开放性。知识服务的实体标准接口与参数说明的示例见附录A,关系标准接口与参数说明的示例见附录B。5知识图谱构建
构建步骤
本文件采用自顶向下的方法构建知识图谱,具体步骤如图2所示。开始
知认拟取加工
知识存储
图2知识图谱构建步骤
图分析\图挖据
知识抽取加工的目标是将数据源层结构化、半结构化和非结构化数据转化形成满足知识图谱存储要求的标准形式,主要包括数据甄别、数据清洗、数据转换和数据融合等步骤。知识存储的目标是有效3
GB/T42777—2023
管理知识图谱依赖的属性数据、图数据、全文检索数据,高效访问数据动态更新后的可视化结果。图分析与图挖掘在知识推理技术之上构建分析模型和算法挖掘模型,对知识图谱进行深入挖掘,生成分析挖掘结果,支撑后续金融风险防控场景构建。5.2知识抽取加工
5.2.1知识抽取
5.2.1.1抽取步骤
宜尽量选择结构化程度相对较高、质量较优的数据源,以便尽可能降低知识抽取成本。需要根据数据来源选择差异化的数据抽取及加工方式。知识抽取的主要步骤包括数据甄别、数据清洗、数据转换、数据融合4个步骤。
数据甄别宜明确建立知识图谱的数据来源。可能的数据来源主要包括:·互联网公开数据;
·通用百科图谱;
内部业务数据;
·其他外部数据。
数据清洗是对数据中的干扰项,特别是来自互联网的错误信息、虚假信息进行清洗,对表示不规范的数据进行统一与规范,
数据转换是将不同形式、不同格式的数据转换成统一的表达形式。—数据融合是针对不同来源的数据在字段、元组等层次的融合,不涉及实体、属性、关系的融合5.2.1.2标准接口对接
标准接口主要用于对接已完成抽取加工的各种数据,包括实体数据和关系数据。通过实体接口和关系接口的调用,将数据以实时或非实时的方式接人对应版本的标准化存储层。接口形式主要包括:—数据文件;
一应用程序接口(API)。
通过API进行数据传输时可参考附录A与附录B的内容进行接口标准制定,接口格式方面主要包括JavaScript对象简谱(JSON)、可扩展标记语言(XML)、另一种标记语言(YAML)等多种形式。注1:JSON是一种轻量级的数据交换格式。注2:XML是一种简单的数据存储语言。注3:YAML是一个可读性高,用来表达数据序列化的格式。5.2.2知识加工
知识加工以知识抽取阶段形成的高质量基础数据作为输入,输出高质量的知识图谱构建所依赖的实体、关系数据并形成金融风险知识库。主要包括知识加工的步骤如下所列。一本体设计的内容主要包括:
·概念层定义:明确定义知识图谱构建需要的实体类型与关系类型;属性定义:明确知识图谱构建的各类实体需要的属性名称;.
约束/规则定义:明确需要约定的限定条件与规则:·模式精简:对同样范围的实体、关系,选择尽量精简的关联与表达方式,——实例获取的内容主要包括:·实体识别:在完成知识抽取后的数据中识别上述已经明确的实体类型对应数据;关系识别:在完成知识抽取后的数据中识别上述已经明确的关系类型对应数据;4
实体链指:将完成文本解析后的事件关联方链接至对应实体:·
GB/T42777—2023
。文本解析:利用自然语言处理技术对金融舆情文本进行分析,实现事件关联方的提取、实体/关系属性的槽填充,以及舆情风险的量化结果注:槽填充即从大规模的语料库中抽取给定实体的被明确定义的属性值的技术。知识融合的内容主要包括:
·共指消解:将具有相同标识的两个实体合并为同一实体;·属性融合:将同一标识实体下,相同名称的属性所对应的属性值进行融合;·规范化一:将不同实体属性值与不同关系属性值的表达方式进行统一。5.3知识存储
5.3.1属性数据存储
属性数据存储内容宜包含实体属性和关系属性。属性数据存储方式宜根据数据规模决定采用分布式存储或单机存储,主要包括单个和批量属性数据的增加、更新、删除操作。
属性数据存储宜主要考虑下列因素高可用,可采用的方式主要包括:双机热备;
·双机互备;
·双机双工。
高并发:可以提供高并发的读写请求。高性能:数据实时写人和实时读取性能高。一可扩展:可按需增加集群的计算能力。可容灾:符合GB/T36618—2018中6.6的要求。5.3.2图数据存储
图数据存储内容宜包括实体数据和关系数据,分别以实体表和关系表的形式体现。图数据存储方式宜根据数据规模决定采用分布式存储或单机存储图数据存储宜考虑的因素主要包括:数据库维度与表维度均采用逻辑划分和物理存储隔离;各数据分片有多份副本,保证安全、可容灾、高可用等性能要求;一通过提高服务器硬件配置或服务器数量提升集群数据处理能力。5.3.3检索引擎
检索引擎的功能主要包括:
实时全文检索;
实时条件过滤查询;
实时复合条件查询;bZxz.net
实时聚合查询。
检索引擎宜根据数据规模决定采用分布式部署或单机部署。5.3.4知识可视化
知识可视化提供图形化的操作界面,主要包括的功能如下所列。5
GB/T42777—2023
一属性展示:查看实体和关系的属性详细信息。一一实体及关系过滤:筛选出关注的实体及关系,隐藏其他实体和关系。一前端效果配置:可对实体和关系展示的前端效果进行配置,主要包括:·颜色;
·形状;
·尺寸。
一自适用页面的展示:可支持放大、拖拽、调整结构等操作。一爆炸节点的聚合:可防止因展示实体及关系过多而引起的前端崩溃、卡顿等问题。5.3.5动态构图
动态构图的功能主要包括:
新增实体或关系类型;
一新增实体或关系的属性信息。新增实体或关系信息宜根据后续业务应用的时效性要求决定采用实时或批量方式存储,实现图谱动态更新。
5.3.6权限管理
权限管理的功能主要包括:
一实现不同应用分区的构建,各分区中实体、关系和属性数据独立管理;一支持多用户管理,支持实体、关系和属性数据增加、删除、改动、查询的授权和权限回收等。5.4图分析与图挖掘
5.4.1概述
图分析与图挖掘基于知识推理。知识推理是指在计算机中进行机器思维、求解问题的过程。通常知识推理的方法主要包括下列内容。一基于概率的知识推理,即根据知识存在准确性等不确定因素,通过概率理论进行推理判断。示例1:两个企业名称相似,且法人姓名相同,则可根据多方面特征综合考虑,通过概率推理标准进行推理,得到两者的“疑似可融合”关系。
基于规则的知识推理,即根据明确给定的规则进行知识推理,推理的细分种类主要包括以下几种。
。正向推理。又称事实驱动或数据驱动,其主要优点是直观,允许用户提供有用的事实信息。
示例2:企业A与企业C同为企业B的股东,企业C被企业A控股。通过基于规则的正向推理可判断:企业A和企业C是一致行动人,
·反向推理。文称目标驱动或假设驱动推理,其主要优点是不必使用与推理目标无关的规则,且有利于向用户提供解释。·正反向混合推理。可以克服正向推理和反向推理问题求解效率较低的缺点。·规则融合的推理能力。其主要优点是能够实现对专家规则的泛化。示例3:规则A为集团关系识别规则、规则B为供应链关系识别规则,将规则A与规则B进行融合形成规则C,可实现对泛集团关系的识别。
基于机器学习的知识推理。处理具有集约特征,即知识的获取、表示和推理合为一体,均通过机器学习训练实现,从而可以充分利用样本性知识,而样本性知识相对来说是最容易获得的。知识推理主要包括以下特性:
高效率的搜索和匹配机制;
一可控制性;
一可观测性;
一启发性;
可解释性。
5.4.2图分析
GB/T42777—2023
图分析以知识图谱为基础,构造具有相对固定模式化的分析结论。图分析的类型主要包括:统计汇总:相关的实体之间有多重关系,统计汇总支持对节点按照某种规则进行统计,从而得到两节点之间的关系统计情况:示例1:例如通话记录、交易记录、投资记录等可汇总的关系类型,支持如通话总时间和次数、转账总金额和次数等信息的统计汇总与清晰展现
一时序分析:主要针对同一客户各个知识,如通话、交易、投资等,可以按照各种时间片进行分析示例2:通过比对各个时间片中知识详情,从而从中挖掘出客户操作规律和使用习惯,分析出客户资金流特点,以评估每段时间内的收支情况或者是否有洗钱嫌疑。5.4.3图算法
图算法以知识图谱为基础,构造具有相对固定模式化的分析结论。图算法主要包括实时图算法与离线图算法。
实时图算法主要包括下列类型。K展开:对于制定实体按照某种关系,可以同时向内或者向外展开K层,K层展开可以有效地查看客户关系全貌,包括挖掘关系,可以快速分析出客户周边是否存在风险因素。注1:K指图谱展开的层数。
最短路径:对于已知两实体,根据某种关系来计算在n层之内的最短可达关系路径。注2:n指两实体间建立关联路径的层数,带权重最短路径:对于已知两点,根据某种关系来计算在n层之内的最短可达关系路径,计算需要考虑每个实体和边上权重,返回的结果是这两点可达关系权重之和最小的集合。全部路径:对于已知两点,根据某种关系来计算在n层之内的全部路径。实体到某个实体集合是否可达:主要计算某个实体到某个实体集合的可达关系,返回该实体到集合中的可达实体之间的最短路径集合。离线图算法的类型主要包括:
—连通分支;
强连通分支;
连通分支直径;
扩展K层;
度中心性;
—三角形统计;
K-Core社区发现;
注3:K-Core社区发现算法是一种用来在图中找出符合指定核心度的紧密关联的子图结构,在K-Core的结果子图中,每个顶点至少具有K的度数,且所有顶点都至少与该子图中的K个其他节点相连频繁子图;
Louvain社区发现;
注4:Louvain社区发现算法是基于模块度的社区发现算法,能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。
GB/T42777—2023
Infomap社区发现;
注5:Infomap社区发现算法是基于信息论的社区发现算法,其优化目标是最小化整个社区网络在随机游走下的平均比特。
图嵌人;
图神经网络。
基于知识图谱的风险防控应用
风险防控关键信息及模型
6.1.1风险信息库
风险信息库是根据法院涉诉信息、各种处罚信息等风险内容进行整合,形成对应的风险集合。风险信息库主要包括:
欺诈信息库;
失信信息库;
涉诉信息库;
处罚信息库;
奥情信息库;
一多渠道债务信息库;
—洗钱信息库;
涉赌涉诈信息库;
风险事件库。
通过风险信息库,可以对金融机构提供多方面的风险支持。6.1.2风险防控策略模型
风险防控策略模型主要在风险监测过程中,依照监管要求和金融机构风险偏好制定。风险防控策略模型主要包括:
阻断类:在风险触发时,直接阻断交易流程:提醒类:在风险触发时,进行告警提醒,同时采取对应的风险应对措施。上述类型的风险防控策略模型应用于金融机构日常业务管理过程,进行全面风险防控。6.1.3风险处置方式
风险处置方式主要包括:
事前预测:在业务发生前,针对业务相关风险进行监测,提前预测可能存在的风险;事中跟踪:在业务发生时,针对业务相关的风险进行监测,实时反馈监测结果;事后监控及预警:在业务存续期间,持续对业务的相关风险进行监测,触发风险监测指标时,给出可解释性结果输出,执行相关风险对策,并通过迭代优化方式加强风险处置的闭环建设。6.2
典型风险防控应用场景
典型风险防控应用场景见表1。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。