GB/T 42777-2023
基本信息
标准号:
GB/T 42777-2023
中文名称:基于文本数据的金融风险防控 知识图谱构建技术框架指南
标准类别:国家标准(GB)
英文名称:Financial risk prevention and control based on text data—Technical framework guidelines for knowledge graph construction
标准状态:现行
发布日期:2023-08-06
实施日期:2023-08-06
出版语种:简体中文
下载格式:.pdf .zip
下载大小:4731078
相关标签:
基于
数据
防控
知识
图谱
构建
技术
框架
指南
标准分类号
标准ICS号:信息技术、办公机械设备>>信息技术应用>>35.240.40信息技术在银行中的应用
中标分类号:综合>>经济、文化>>A11金融、保险
关联标准
出版信息
出版社:中国标准出版社
页数:20页
标准价格:38.0
相关单位信息
起草人:高峰、赵成刚、仲峻锋、曹馨宇、刘涌、杨斌、苗小军、胡正洪、杨娟、翟士丹、刘庆
起草单位:中国银行业协会、中国标准化研究院、中国工商银行股份有限公司、青岛银行股份有限公司、兰州银行股份有限公司、江苏江南农村商业银行股份有限公司、北京海致星图科技有限公司
归口单位:全国金融标准化技术委员会(SAC/TC 180)
发布部门:国家市场监督管理总局 国家标准化管理委员会
主管部门:全国金融标准化技术委员会(SAC/TC 180)
标准简介
本文件给出了基于文本数据的金融风险防控知识图谱与风险防控概述,提供了知识图谱构建、基于知识图谱的风险防控应用的指南。本文件适用于金融机构开展基于文本数据的金融风险防控知识图谱构建工作。
标准内容
ICS35.240.40
CCSA11
中华人民共和国国家标准
GB/T42777—2023
基于文本数据的金融风险防控
知识图谱构建技术框架指南
Financial risk prevention and control based on text data-Technical framework guidelines for knowledge graph construction2023-08-06发布
国家市场监督管理总局
国家标准化管理委员会
2023-08-06实施
规范性引用文件
术语和定义
知识图谱与风险防控概述
整体架构
基础支撑层
数据源层
知识抽取与加工层
知识管理层
知识挖掘与分析层
风险防控应用层
知识服务交互层
知识图谱构建
构建步骤
知识抽取加工
知识存储
图分析与图挖掘
基于知识图谱的风险防控应用
风险防控关键信息及模型
典型风险防控应用场景
附录A(资料性)
附录B(资料性)
参考文献
实体标准接口及参数说明示例
关系标准接口及参数说明示例·次
GB/T42777—2023
GB/T42777—2023
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。免费标准下载网bzxz
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国金融标准化技术委员会(SAC/TC180)归口。本文件起草单位:中国银行业协会、中国标准化研究院、中国工商银行股份有限公司、青岛银行股份有限公司、兰州银行股份有限公司、江苏江南农村商业银行股份有限公司、北京海致星图科技有限公司。本文件主要起草人:高峰、赵成刚、仲峻锋、曹馨宇、刘涌、杨斌、苗小军、胡正洪、杨娟、翟士丹、刘庆、1范围
基于文本数据的金融风险防控
知识图谱构建技术框架指南
GB/T42777—2023
本文件给出了基于文本数据的金融风险防控知识图谱与风险防控概述,提供了知识图谱构建、基于知识图谱的风险防控应用的指南。本文件适用于金融机构开展基于文本数据的金融风险防控知识图谱构建工作。n
规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T36618—2018信息安全技术金融信息服务安全规范术语和定义
下列术语和定义适用于本文件。3.1
实体entity
具有独立逻辑含义的一类概念、人、事物。注:例如企业、自然人、裁判文书、标书、账户等。3.2
relationship
实体与实体之间在特定时间、特定行为下产生的联系。注:例如企业实体之间的股权关系、转账关系、担保关系等。3.3
attribute
实体或关系所具有的特性。
注:例如“自然人“的属性包括姓名、地址、电话等,“股权关系”的属性包括持股比例、关系建立时间等3.4
知识图谱
knowledgegraph
对客观世界的概念、实体及其关系的结构化描述。3.5
一致行动人
persons acting in concert
在上市公司的收购及相关股份权益变动活动中有一致行动情形的投资者,注:一致行动情形是指投资者通过协议、其他安排,与其他投资者共同扩大其所能够支配的一个上市公司股份表决权数量的行为或者事实。
GB/T42777—2023
应用程序接口
applicationprogramminginterface;APi预先定义好的、无需开发者关注服务的设计与实现就能便捷地访问相关服务的一组功能或功能的组合。
知识图谱与风险防控概述
整体架构
知识图谱将数据加工为知识,并通过智能分析挖掘,提炼形成风险防控的方法和技术实施路径。基于知识图谱的风险防控整体架构如图1所示。PC潢
知识!
风险信号
产品风险行业风险
区城风险系统风险
政策灾变外部隐估
实时图查询
K层展开
最短/余路径
社区探测
环图查询
图缴据存储
知识抽取
外部数据
(结构化、半结
(构化、非结构化)
风险视图
移动端
基本信息风险标签
关联关系资产交易
风险事件负面费信
陶谱搜素
语义解析
权重分析
全文检索
实体判断
全文检素引率
本体设计
工商注册信息
般权关系
投资关系
人数据平台
高管信息
商机线索
风险事件
数据仓序
关系分析
投警分析服东分析
招标分析商告分析
涉派分析扣保分析
离线图查询
一对多路径
多对多路径
批量实体间
批量k层展开
实例获取
业内动漆
招标信息
形查挖掘
异常借费异需还款
开常制保长链控册
散诈社区隐康关系
图算汰
连迎分支
强连通分支
度中心
额繁了图
属性数据存值
知识融合
内部数据
(结构化、半结
构化、
非结构化
机器学习
图1基于知识图谱的风险防控整体架构夷面嵌入
风险监控
自身风险关联风险
监控名单推送管理
简值管理信息反馈
图机器学习
分类模犁
浆类模型
关联模型
回归模型
元数据配置管理
任务调度
客户信款
交易信息
业务动态
产品信息
行业关系
自然语言处理
基于知识图谱的风险防控整体架构按照数据流转方向自下而上包含基础支撑层、数据源层、知识抽2
取与加工层、知识管理层、知识挖掘与分析层、风险防控应用层和知识服务交互层。4.2基础支撑层
GB/T42777-2023
基础支撑层是知识图谱构建所需的基础技术支撑,主要包括大数据平台、数据仓库、机器学习、自然语言处理。
4.3数据源层
数据源层是知识图谱构建所需数据的最初来源。可分为金融机构内部数据源与外部数据源,其中的数据形态包括结构化数据、半结构化数据及非结构化数据。4.4知识抽取与加工层
知识抽取与加工层将数据源层的各类型数据通过知识抽取、本体设计、实例获取、知识融合、任务调度,加工形成满足要求的数据。4.5知识管理层
知识管理层将知识抽取与加工层形成的数据作为输人,通过图数据存储、全文检索引擎、属性数据存储和元数据配置管理等模块化处理,实现知识图谱展现结果的有效管理和高效访问。4.6知识挖掘与分析层
知识挖掘与分析层通过实时图查询、图谱搜索、离线图查询、图算法、图机器学习等技术,形成具有特定模式的标准化的图分析挖掘结论,服务后续风险防控应用层的构建,4.7风险防控应用层
风险防控应用层利用知识挖掘与分析层重点实现与金融有关风险的防控,包括各类金融机构所面临的信用风险、市场风险、操作风险等,通过风险信号、风险视图、关系分析、形态挖掘、风险监控,分析推演风险成因、性质、等级·形成对风险的识别、预警和处置策略4.8知识服务交互层
知识服务交互层将风险防控应用层形成的风险结果及处理机制规范化成可供各种终端或其他相关系统使用的服务,实现知识图谱风险防控方法和技术的开放性。知识服务的实体标准接口与参数说明的示例见附录A,关系标准接口与参数说明的示例见附录B。知识图谱构建
构建步骤
本文件采用自顶向下的方法构建知识图谱,具体步骤如图2所示。开始
知认据取加工
知认存储
图2知识图谱构建步骤
图分析与图挖据
知识抽取加工的自标是将数据源层结构化、半结构化和非结构化数据转化形成满足知识图谱存储要求的标准形式,主要包括数据甄别、数据清洗、数据转换和数据融合等步骤。知识存储的目标是有效3
GB/T42777—2023
管理知识图谱依赖的属性数据、图数据、全文检索数据,高效访问数据动态更新后的可视化结果。图分析与图挖掘在知识推理技术之上构建分析模型和算法挖掘模型,对知识图谱进行深人挖掘,生成分析挖掘结果,支撑后续金融风险防控场景构建。5.2知识抽取加工
5.2.1知识抽取
5.2.1.1抽取步骤
宜尽量选择结构化程度相对较高、质量较优的数据源,以便尽可能降低知识抽取成本。需要根据数据来源选择差异化的数据抽取及加工方式。知识抽取的主要步骤包括数据甄别、数据清洗、数据转换、数据融合4个步骤。
数据甄别宜明确建立知识图谱的数据来源。可能的数据来源主要包括:·互联网公开数据:
。通用百科图谱;
内部业务数据;
其他外部数据。
数据清洗是对数据中的干扰项,特别是来自互联网的错误信息、虚假信息进行清洗,对表示不规范的数据进行统一与规范
数据转换是将不同形式、不同格式的数据转换成统一的表达形式。一数据融合是针对不同来源的数据在字段、元组等层次的融合,不涉及实体、属性、关系的融合。5.2.1.2标准接口对接
标准接口主要用于对接已完成抽取加工的各种数据,包括实体数据和关系数据。通过实体接口和关系接口的调用,将数据以实时或非实时的方式接入对应版本的标准化存储层。接口形式主要包括:数据文件;
一应用程序接口(API)。
通过API进行数据传输时可参考附录A与附录B的内容进行接口标准制定,接口格式方面主要包括JavaScript对象简谱(JSON)、可扩展标记语言(XML)、另一种标记语言(YAML)等多种形式。注1:JSON是一种轻量级的数据交换格式。注2:XML是一种简单的数据存储语言。注3:YAML是一个可读性高.用来表达数据序列化的格式5.2.2知识加工
知识加工以知识抽取阶段形成的高质量基础数据作为输入,输出高质量的知识图谱构建所依赖的实体、关系数据并形成金融风险知识库。主要包括知识加工的步骤如下所列。一本体设计的内容主要包括:
概念层定义:明确定义知识图谱构建需要的实体类型与关系类型;·
属性定义:明确知识图谱构建的各类实体需要的属性名称;·
约束/规则定义:明确需要约定的限定条件与规则:模式精简:对同样范围的实体、关系,选择尽量精简的关联与表达方式。·
实例获取的内容主要包括:
·实体识别:在完成知识抽取后的数据中识别上述已经明确的实体类型对应数据:关系识别:在完成知识抽取后的数据中识别上述已经明确的关系类型对应数据;4
实体链指:将完成文本解析后的事件关联方链接至对应实体:GB/T42777—2023
·文本解析:利用自然语言处理技术对金融奥情文本进行分析,实现事件关联方的提取、实体/关系属性的槽填充,以及舆情风险的量化结果注;槽填充即从大规模的语料库中抽取给定实体的被明确定义的属性值的技术。知识融合的内容主要包括:
。共指消解:将具有相同标识的两个实体合并为同一实体:。属性融合:将同一标识实体下,相同名称的属性所对应的属性值进行融合:·规范化一:将不同实体属性值与不同关系属性值的表达方式进行统一。5.3知识存储
5.3.1属性数据存储
属性数据存储内容宜包含实体属性和关系属性。属性数据存储方式宜根据数据规模决定采用分布式存储或单机存储,主要包括单个和批量属性数据的增加、更新、删除操作。
属性数据存储宜主要考感下列因素。高可用,可采用的方式主要包括:双机热备:
·双机互备;
·双机双工。
高并发:可以提供高并发的读写请求。高性能:数据实时写人和实时读取性能高。一可扩展:可按需增加集群的计算能力。可容灾:符合GB/T36618—2018中6.6的要求。5.3.2图数据存储
图数据存储内容宜包括实体数据和关系数据,分别以实体表和关系表的形式体现。图数据存储方式宜根据数据规模决定采用分布式存储或单机存储。图数据存储宜考虑的因素主要包括:数据库维度与表维度均采用逻辑划分和物理存储隔离;各数据分片有多份副本,保证安全、可容灾、高可用等性能要求;一通过提高服务器硬件配置或服务器数量提升集群数据处理能力。5.3.3检索引擎
检索引擎的功能主要包括:
实时全文检索:
实时条件过滤查询;
实时复合条件查询;
实时聚合查询。
检索引擎宜根据数据规模决定采用分布式部署或单机部署。5.3.4知识可视化
知识可视化提供图形化的操作界面,主要包括的功能如下所列。5
GB/T42777—2023
属性展示:查看实体和关系的属性详细信息。一实体及关系过滤:筛选出关注的实体及关系,隐藏其他实体和关系一前端效果配置:可对实体和关系展示的前端效果进行配置,主要包括:·颜色:
·形状;
·尺寸。
一自适用页面的展示:可支持放大、拖拽、调整结构等操作。爆炸节点的聚合:可防止因展示实体及关系过多而引起的前端崩溃、卡顿等问题5.3.5动态构图
动态构图的功能主要包括:
新增实体或关系类型;
新增实体或关系的属性信息
新增实体或关系信息宜根据后续业务应用的时效性要求决定采用实时或批量方式存储,实现图谱动态更新。
5.3.6权限管理
权限管理的功能主要包括:
一实现不同应用分区的构建,各分区中实体、关系和属性数据独立管理:一支持多用户管理,支持实体、关系和属性数据增加、删除、改动、查询的授权和权限回收等。5.4图分析与图挖掘
5.4.1概述
图分析与图挖掘基于知识推理。知识推理是指在计算机中进行机器思维、求解问题的过程。通常知识推理的方法主要包括下列内容。一基于概率的知识推理,即根据知识存在准确性等不确定因素,通过概率理论进行推理判断。示例1:两个企业名称相似,且法人姓名相同,则可根据多方面特征综合考虑,通过概率推理标准进行推理,得到两者的“疑似可融合“关系,
基于规则的知识推理,即根据明确给定的规则进行知识推理,推理的细分种类主要包括以下几种。
。正向推理。文称事实驱动或数据驱动,其主要优点是直观,充许用户提供有用的事实信息。
示例2:企业A与企业C同为企业B的股东,企业C被企业A控股。通过基于规则的正向推理可判断:企业A和企业C是一致行动人,
。反向推理。又称目标驱动或假设驱动推理,其主要优点是不必使用与推理目标无关的规则,且有利于向用户提供解释。正反向混合推理。可以克服正向推理和反向推理问题求解效率较低的缺点。规则融合的推理能力。其主要优点是能够实现对专家规则的泛化。·
示例3:规则A为集团关系识别规则、规则B为供应链关系识别规则,将规则A与规则B进行融合形成规则C,可实现对泛集团关系的识别,
一基于机器学习的知识推理。
处理具有集约特征,即知识的获取、表示和推理合为一体,均通过机器学习训练实现,从而可以充分利用样本性知识,而样本性知识相对来说是最容易获得的知识推理主要包括以下特性:
高效率的搜索和匹配机制;
可控制性;
一可观测性:
一启发性:
可解释性。
5.4.2图分析
GB/T42777—2023
图分析以知识图谱为基础,构造具有相对固定模式化的分析结论。图分析的类型主要包括:统计汇总:相关的实体之间有多重关系,统计汇总支持对节点按照某种规则进行统计,从而得到两节点之间的关系统计情况;示例1:例如通话记录、交易记录、投资记录等可汇总的关系类型,支持如通话总时间和次数、转账总金额和次数等信息的统计汇总与清晰展现
时序分析:主要针对同一客户各个知识,如通话、交易、投资等,可以接照各种时间片进行分析。示例2:通过比对各个时间片中知识详情,从面从中挖摇出客户操作规律和使用习惯,分析出客户资金流特点,以评估每段时间内的收支情况或者是否有洗钱嫌疑。5.4.3、图算法
图算法以知识图谱为基础,构造具有相对固定模式化的分析结论。图算法主要包括实时图算法与离线图算法。
实时图算法主要包括下列类型
飞展开:对于制定实体按照某种关系,可以同时向内或者向外展开K层,K层展开可以有效地查看客户关系全貌,包括挖掘关系,可以快速分析出客户周边是否存在风险因系。注1:K指图谐展开的层数
最短路径:对于已知两实体,根据某种关系来计算在n层之内的最短可达关系路径注2:n指两实体间建立关联路径的层数带权重最短路径:对于已知两点,根据某种关系来计算在1层之内的最短可达关系路径·计算需要考虑每个实体和边上权重,返回的结果是这两点可达关系权重之和最小的集合。全部路径:对于已知两点,根据某种关系来计算在n层之内的全部路径。实体到某个实体集合是否可达:主要计算某个实体到某个实体集合的可达关系,返回该实体到集合中的可达实体之间的最短路径集合。离线图算法的类型主要包括:
连通分支;
—强连通分支;
连通分支直径;
扩展K层;
度中心性;
一三角形统计;
K-Core社区发现;
注3:K-Core社区发现算法是一种用来在图中找出符合指定核心度的紧密关联的子图结构,在K-Core的结果子图中,每个项点至少具有K的度数·且所有顶点都至少与该子图中的K个其他节点相连。频繁子图:
Louvain社区发现:
注4:Louvain社区发现算法是基于模块度的社区发现算法,能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。
GB/T42777—2023
Infomap社区发现:
注5:Infomap社区发现算法是基于信息论的社区发现算法,其优化目标是最小化整个社区网络在随机游走下的平均比特。
图嵌人;
—图神经网络。
基于知识图谱的风险防控应用
风险防控关键信息及模型
6.1.1风险信息库
风险信息库是根据法院涉诉信息、各种处罚信息等风险内容进行整合,形成对应的风险集合。风险信息库主要包括:
欺诈信息库:
一失信信息库;
涉诉信息库:
处罚信息库;
奥情信息库;
多渠道债务信息库;
洗钱信息库;
涉赌涉诈信息库;
风险事件库。
通过风险信息库,可以对金融机构提供多方面的风险支持。6.1.2风险防控策略模型
风险防控策略模型主要在风险监测过程中,依照监管要求和金融机构风险偏好制定。风险防控策略模型主要包括:
阻断类:在风险触发时,直接阻断交易流程;提醒类:在风险触发时,进行告警提醒,同时采取对应的风险应对措施。上述类型的风险防控策略模型应用于金融机构日常业务管理过程,进行全面风险防控。6.1.3风险处置方式
风险处置方式主要包括:
事前预测:在业务发生前,针对业务相关风险进行监测,提前预测可能存在的风险;一事中跟踪:在业务发生时,针对业务相关的风险进行监测,实时反馈监测结果;事后监控及预警:在业务存续期间,持续对业务的相关风险进行监测,触发风险监测指标时,给出可解释性结果输出,执行相关风险对策,并通过送代优化方式加强风险处置的闭环建设6.2
典型风险防控应用场景
典型风险防控应用场景见表1。
应用场景
客户复杂关系挖摄
黑名单风险传导监测
内部操作风险监测
隐性集团关系发现
关联集团集中授信度
异常风险担保形态识别
一户多贷挖摄
反洗钱监测
典型风险防控应用场景
输入项
企业/自然人标识信息
企业/自然人标识信息
报告、合同、审批意见等
企业标识信息
单一企业/集团标识信息
担保人/被担保人标识信息
企业/自然人标识信息
企业/自然人标识信息
计算逻辑
通过客户信息及相关的关
联关系进行分析,对客户进
行全面的分析评估,发现潜
在风险
通过黑名单客户名单,结合
客户关联关系、资金往来、
担保关系等建立黑名单传
导模型
非结构化数据通过知识提
取,得到结构化知识
通过知识图谱挖掘分析表
面上没有实质关联关系的
客户群,挖掘潜在的存在投
资关系、高管关联及其他关
联关系的企业群体,建立集
团关系
基于已挖掘的集团客户进
行投信额度信息的合并统
计计算,防止因購报、漏报
造成的统一授信管理失真
的情况
利用图相关技术,挖掘担保
数据,可建立担保链/圈等
基础模型,实现各种担保类
型智能识别
挖掘企业背后实际控制人,
有效监控一户多贷,辅助客
户经理识别风险
利用外部互联网数据和金
融机构内部数据,运用知识
图谱关系挖掘技术挖掘反
洗钱相关结论
GB/T42777-—2023
输出可应用结果
输出实际控制人、疑似亲
属、一致行动人、企业上下
游等复杂关系挖掘结果
输出客户和黑名单客户关
联关系路径及风险度分析
输出各项业务审批指标对
比分析结果,以及业务操作
风险审计结论
输出隐性集团关系,以及与
已知集团信息做交叉验证
输出授信集中度风险指标
计算结果
输出互保、多客户间联保
担保链等异常担保形态
输出两个或以上企业的实
际控制人为同一自然人关
系图谱,当两个或以上企业
同时发生大额信贷业务时,
触发风险预警信息
定期输出可疑账户、可疑交
易、黑名单关联企业/自然
人,一致行动人等风险提示
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。