首页 > 国家标准(GB) > GB/T 40035-2021 双语平行语料加工服务基本要求
GB/T 40035-2021

基本信息

标准号: GB/T 40035-2021

中文名称:双语平行语料加工服务基本要求

标准类别:国家标准(GB)

英文名称:Basic requirements for bilingual parallel corpus processing service

标准状态:现行

发布日期:2021-04-30

实施日期:2021-11-01

出版语种:简体中文

下载格式:.zip .pdf

下载大小:6494763

相关标签: 双语 平行 加工 服务

标准分类号

标准ICS号: 03.080.99;35.240.30

中标分类号:综合>>经济、文化>>A10商业、贸易、合同

关联标准

出版信息

出版社:中国标准出版社

页数:24页

标准价格:43.0

出版日期:2021-04-01

相关单位信息

起草人:刘智洋、张井、叶剑、柴瑛、黄宝荣、罗慧芳、蒙永业、朱励、张雪涛、王海涛、朱宪超、韩林涛、郑春萍、何中军、于立梅、张春良、甘克勤、张宝林

起草单位:中国标准化研究院、中国翻译协会、上海一者信息科技有限公司、上海佑译信息科技有限公司、中译语通科技股份有限公司、北京悦尔信息技术有限公司、苏州联跃科技有限公司、四川语言桥信息技术有限公司、北京百度网讯科技有限公司、沈阳雅译网络技术有限公司等

归口单位:全国语言与术语标准化技术委员会(SAC/TC 62)

提出单位:全国语言与术语标准化技术委员会(SAC/TC 62)

发布部门:国家市场监督管理总局 国家标准化管理委员会

标准简介

GB/T 40035-2021.Basic requirements for bilingual parallel corpus processing service.
1范围
GB/T 40035规定了双语平行语料加工服务的基本要求、加工流程、服务内容和数据安全等内容。
GB/T 40035适用于以原文和译文为对象的、以文字为表达形式的数字化双语语料加工服务,其他数字化文本的语料加工也可参照使用,也适用于对语料对齐工具的评价。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
3.1
文本 text
以字符、符号、词、短语、段落、句子、表格或其他字符排列形成的数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或人工语言的知识。
[来源:GB/T 4894-2009.4.1.1.2.4]
3.2
语料 corpus
语言材料或资料。
3.3
双语平行语料 bilingual parallel corpus
由两种语言构成,并在篇章、段落、句子或其他级别平行对齐的语料(3.2)。
3.4
原文 source language text
源语言文本(3.1)。
[来源:GB/T 19363.1-2008,3.4, 有修改]
3.5
译文 target language text
目标语言文本(3.1)。
[来源:GB/T 19363.1-2008,3.5, 有修改]
本文件规定了双语平行语料加工服务的基本要求、加工流程、服务内容和数据安全等内容。本文件适用于以原文和译文为对象的、以文字为表达形式的数字化双语语料加工服务,其他数字化文本的语料加工也可参照使用,也适用于对语料对齐工具的评价。


标准图片预览






标准内容

ICS03.080.99:35.240.30
CCSA10
中华人民共和国国家标准
GB/T40035—2021
双语平行语料加工服务基本要求Basic requirements for bilingual parallel corpus processing service2021-04-30发布
国家市场监督管理总局
国家标准化管理委员会
2021-11-01实施
规范性引用文件
术语和定义
基本要求
服务提供方
语料川工人员
服务环境
加工内容
川工结果
完整性
准确性
可用性
规范性
5.6语料加T工具
可靠性
易用性
本地化界面
操作功能
帮助系统·
5.6.3兼容性
6加工流程
预处理
语料准备
6.1.4脱敏
6.2语料对齐
语料审核
服务内容
需求沟通
客户协议
项目管理
加工环节
-rrKaeerkAca-
GB/T 40035—2021
GB/T40035—2021
交付内容
质量保证期
服务评价与改进
8数据安全
数据备份
文档管理与日志
8.3数据存储
附录A(资料性)
附录1B3(资料性)
附录((资料性)
附录D(资料性)
附录E(资料性)
参考文献
双语平行语料加工人员的培训
双语语料加工的元数据
TXT文件常见编码格式
TMX格式规范
文件的命名规则、编码格式及文件格式-rrKaeerKa-
GB/T40035—2021
本文件按照GB/T1.1一2020《标准化T作导则第1部分:标准化文件的结构和起规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国语言与术谱标准化技术委员会(SAC/TC62)提出并归口。本文件起草单位:中国标准化研究院、中国翻译协会、上海一者信息科技有限公司、上海佑译信息科技有限公司、中译语通科技股份有限公司、北京悦尔信息技术有限公司、苏州联跃科技有限公司、四川语言桥信息技术有限公司、北京百度网讯科技有限公司、沈阳雅译网络技术有限公司、上海智膳合网络科技有限公司北京语言大学北京邮电大学。本文件主要起草人:刘智洋、张井、叶剑、柴瑛、黄宝荣、罗慧芳、蒙永业、朱励、张雪涛、干海涛、未宪超韩林涛、郑春萍、何中军、于立梅、张春良、甘克勤、张宝林。C
-riKacerKAca-
1范围
双语平行语料加工服务基本要求GB/T40035—2021
本文件规定了双语平行语料加工服务的基本要求、加工流程,服务内容和数据安全等内容本文件适用于以原文和译文为对象的、以文为表达形式的数疗化双语语料加工服务,其他数宁化文本的语料加工也可参照使用,也适用于对语料对齐工具的评价。规范性引用文件
本文件没有规范性引用文件。
术语和定义
下列术语和定义适用于本文件。3.1
以字符、符号、词、短语、段落、句子、表格或其他字符排列形成的数据,用于表达意义,其解释基本上取决于读者对于某种自然语言或人工语言的知识。[来源:GB/T48942009,4.1.1.2.1]3.2
corpus
语材料或资料
双语平行语料bilingual parallel corpus由两种语言构成,并在篇章、段落、句了或其他级别平行对齐的语料(3.2)。3.4
source languagetext
源语言文本(3.1)。
【来源GB/T19363.1—2008,3.4.有修改]3.5
larget language lexi
月标语亢文本(3.1)。
[来源:GB/T19363.12008,3.5,有修改3.6
client
接受按其要求提供产品或服务的个人或组织。[米源:GB/T19000—2016,3.2.4,有修改3.7
元数据
metadata
关于数据的内容、质量、状况和其他特性的描述性数据。1
-rrKaeerkAca-
GB/T 40035—2021
service provider
服务提供方
提供服务的个人或组织,
光学字符识别opticalcharacterrecognition;OCR自动识别通过打描仪、数码相机、摄像机等得到的图像中的字符,使于存储、编辑和检索,L米源:GB/T31219.2—2014,3.4]3.10
TMXTranslationMemoryeXchange翻译记忆交换的标准格式。
corpus alignment
语料对齐
将双语语料(3.2)进行篇章、段落、句了或其他级别的对齐,构成平行对照的形式:3.12
真corpusalignmenttool
语料对齐工具
用于将双语文不对齐,并能制作成双语平行语料(3.3)的工具。3.13
纠正correction
为消除已发现的不合格内容所采取的措施。米源:GB/T19000—2016,3.12.33.14
脱敏de-identification
去除可确认个人或组织身份的数据与数据主体之间联系的过程。[米源.ISO/TS25237:2008,3.183.15
敏感信息
scnsitiveinformation
如果公开或各滥用会造成潜在危害的信息[来源:GB/T48942009,4.7.3.2.4,有修改3.16
anonymized data
名化数据
去除直接涉及数据主体的个人或组织数据。来源:GB/T48942009,4.7.3.2.3,有修改4总则
4.1双语平行语料加工服务是将客广提供的原文和译文的文本内容按段落、句子或其他级别建立对应关系的一种服务。
4.2双证平行证料川工服务的口的是获取双对齐的文本资料,为计算机辅助翻译、机器翻译和语言学研究提供基础数据。
4.3双语平行语料加工的对象包括原文、译文和加工文本的元数据。2
-rrKaeerkAca-
GB/T40035-2021
4.4双语平行语料加工服务提供方(以下简称“服务提供方”)对译文不进行中核,译文质量由客户保证。
4.5:双语平行谱料加工服务可以采用多个工具完成,也可以在个集成环境中完成。该环境应集成对齐、元数据采集等功能,以适应双语平行语料加工服务的需要。5基本要求
5.1服务提供方
服务提供方成具备以下条件:
l)建立完备的语料加工流程体系,包括但不限丁数据预处理、语料对齐、项目管理、质量中核等;配备合格的语料加下人员;
配备稳定可用的语料对齐工具及相关文字处理工具;d)配备可完成语料加工服务的场所。2语料加工人员
服务提供方应确保双语平行语料加工人员具备以下能力:a)阅读源语言和目标语言的能方:能理解源语言和目标语言,并能快速阅读原文和译支b)研究和处理文本的能力:能拓展必要的文本处理及专业知识,并能制定策略来有效利用现有资源:
技术能力:利用技术资源,包括使用工具和信息系统支撑整个语料加工过程,完成其中的各项c)
技术任务。
注:双语平行谱料加工人员的培训见附录A。5.3
服务环境
服务提供方的服务环境应拥有完成双语语料加工所需的技术设备和办公设备,如光学识别工具、对齐工具等。客户可与服务提供方约定加工时使用的工具名称和版本服务提供方的保密环境及级别应符合客广对语料保密的要求,按客广的要求配备保密设备、进行安全加固、为语料加工人员开展保密培训等5.4加工内容
双语语料应山客户提供,语料可来白正式出版物、公司内部资料、网站等。双语语料的加工应优先选择数字化后的双语语料,尚未数字化的双语语料,可通过扫描或拍照等手段,后采用光学字符识别的方式转换成数字化形式,或直接通过键盘录入:通过光学字符识别或键盘录入的双请语料应增加校对节保证内容的质量5.5加工结果
5.5.1完整性
在符合客广数据处埋要求的前提下,服务提供方的加工结果应保证原文、译文及元数据的完整性,确保加工结果无信息天失
注:双诺诺料加工的元数据见附录B5.5.2准确性
在符合客户数据处理要求的前提下,服务提供方的加工结果应保证原文和译文对应关系的准确性-riKacerKAca-
GB/T40035—2021
以及元数据的准确性,确保加工结果准确无误。注:双语语料加工的元数据见附录B。5.5.3可用性
服务提供方应保证加工结果符合以下要求:能被语料检索、管理和生产工具解析:a)
b)无乱码、多余标签等不可用信息:c)无格式混乱或原文译文不对应情况;d)无用户未要求的多余信息
5.5.4规范性
服务提供方的加工结果应符合客户的规范要求,加工结果的数据格式应包括TMX、TXT等,并符合以下要求:
a)TMX文件应符合翻译记忆库交换规范,包含留存版本号、编码格式、制作语料的工具名称、制作时间、双语语言编码等元数据信息:b)TXT文件应采用一种常见的天学符集的编码格式,如UTF-8,注:TXT文件常见编码格式见附录C,TMX格式规范见附求D。5.6语料加工工具
语料对齐是双语平行语料川工的关键环节,因此语料对齐工具作为语料川干工具的重要组成部分应满足以下可靠性、易用性和兼容性三方面要求。5.6.1可靠性
语料对齐工具应在出现局部功能故障时,不影响其他功能的操作,仍能提供对齐功能。语料对齐工具应提供对齐过程数据自动保存及恢复功能。2易用性
5.6.2.1本地化界面
语料对齐工具应支持中文界面。5.6.2.2操作功能
语料对齐工具应支持对齐双语文本所需的操作功能a)文字编辑:在允许文字输入的内容标识区域,支持文字修改、删除和添加等;合并:支持将分布在两行的文本合并成一行;b)
拆分:支持将一行义本切分成两行;上移:支持将文本位置向上移动;下移:支持将文本位置向下移动:插入:支持在某一行文本1万或下方插人一行;期除:支持期除桌行或多行文本:回退:支持回退至上步操作,没有上一步时,停留在当前操作;对齐:支持文本调整完成后,执行段落或句子级别的对齐;导出:支持对齐完成后,导出对齐的双语文本;k)
保存:支持将对齐过程中的文本进行保存。4
rKaeerkAca-
5.6.2.3帮助系统
语料对齐工具应提供:
GB/T40035-2021
a)系统功能离线帮助文档或在线帮助支持,并与工具的功能保持致.使用户在使用系统过程巾遇到间题时能够快速狄得相应的帮助:基本操作指引,使用户在使用系统过程中能够快速了解操作技巧;b)
)友好交互提示,能够帮助用广找到错误定位,提示错误原因,5.6.2.4效率
应从以下方面评价语料对齐工具的效率:响应时间:
1)工具启动时间;
2)白动对齐、拆分、合并、保存等基本操作的响应时问;恢复作业时间:关闭后再次打开工具时,能快速定位上次作业位置的时间。3)
便捷度:
1)支持快捷键操作;
2)支持右键荣单。
3兼容性
语料对齐工具的兼容性要求如下:服务器端的语料对齐工具应说明能够支持的浏览器,并避免使用基于特定浏览器和特定操作Et
系统功能的脚本和插件;
服务器端的语料对齐工具应适应不同浏览器和分辨率的展示,应提供率少一种推荐的浏览器b)
和分辨率,确保在该浏览器和分辨率下展示的网负布局和元素完整正确;c)
本地的语料对齐工具应提供完整的安装文档,说明支持的操作系统、应用的配置信息和常见问题的提示信息等内容。
6加工流程
6.1预处理
语料准备
对于图片格式或扫描版的尚木数字化的语料·需先通过光学字符识别或直接通过键盘录人转成可编辑的电子文本语料:
6.1.2清洗
对语料中的乱码及特殊字符等进行排查和纠正。6.1.3去重
对语料进行数据查重操作,检查已有的双语语料数据和元数据,尽量利用客户已有的数据,避免重复加工。
6.1.4脱敏
按客广的脱敏要求对数据进行脱敏处理,去除语料中的身份信息和其他敏感信息,把语料转换成诺5
-rrKaeerkAca-
GB/T40035—2021
名化数据。
6.2语料对齐
语料加工人员利用语料对齐工具导人双语义档后,工具执行白动断句结合工具白动对齐与人工手动调整对齐后,导出最终的双语平行语料库,导出时应确认源语言和日标语言、语料库名称以及语料库格式等信息:
注:文件命名规则、编码格式及文件格式见附录E6.3语料审核
服务提供方应对加工结果进行抽样检查,抽样数不少于结果总条日数的10%,抽样数据的准确率不低于99%
服务提供方应按照客户提供的规范,参照客户提供的示例对加工结果进行检查确保加工结果符合客广的要求,检查结果应予以记录并归档。7服务内容
7.1需求沟通
服务提供方应与客户建立完善的需求沟通机制,在接受客户的双语平行语料加工任务前,与客户沟通明确原文文本和译文文本的加工级别、采集元数据的范围、脱敏要求等及其可行性·因为双语平行语料加工服务的效率受加工级别、原文文本和译文文本是否已数字化、元数据是否容易采集以及脱敏程度等因索的影响较大。对于尚未数字化的语料,服务提供方应与客户就语料数字化的加工方式(光学字符识别或直接通过键盘录人)达成一致。按照客户对语料的用途,双语平行语料加工可分为以下两种级别。a)标准级。对原文和译文执行段落或句子级别的对齐,采集基本的元数据。b)精标注级。按照客户的要求,除语料对齐和采集元数据之外,对语料逊行分间、词性标注、句法标注、语义标注等、
7.2客户协议Www.bzxZ.net
服务提供方应与客达成协议,并产以记录。如果通过口头或电话达成协议,服务提供方应以书面形式(如信函、传真或电子邮件等)确认该协议及具条款。客户与服务提供方应就语料加工级别(段落级、句子级等)送成致,如果以句子为基本单位,双方应就句子拆分的断句规则、原义和译义无法对应的处理规则等情况达成一致。客户应将相关规范(如断付规则、用途等)连同样例发给服务提供方,并由其遵照执行。客户与服务提供方可对语料的知识产权归属及数据保密等要求进行协商约定,在协议执行过程中,如果出现了与协议不符的情况,各方应达成一致,对协议进行修订并予以记录和归档。
7.3项目管理
服务提供方应安排项日经理对语料加工项日执行任务分配、进度管理、质量检查等工作7.4加工环节
双语平行语料加工环节包括双语语料预处理、双语语料对齐和双语平行语料审核。6
-riKacerKAca-
,交付内容
GB/T 40035—2021
双语平行语料加工的交付内容应包括双语平行语料和加工报告,交付要求如下:a)双语平行语料应通过移动存储介质或云存储形式交付,儿应包含加工服务提供方名称、交付Ⅱ期、语料总条数等元数据信息:加工报告应通过移动存储介质或云存储形式交付,内容应包含客户提供语料概况、加工流程说b
明、实际加工交付语料条日数、未能加工语料说明、交付语料准确率说明、加工使用工具、服务完成所用时间等信息。
7.6质量保证期
服务提供方应与客户约定质量保证期,未约定的应以一年为最短质量保证期,质量保证期内,服务提供方需修复客户提出的语料加工问题。7.7服务评价与改进
服务提供方应指定专人跟踪客户的反馈意见并进行记录和整理,采取相应的改进措施,优化语料加工流程。
对于分批交付的双语语料,服务提供方应在每批数据加工结果交付后安排专门客服人员进行质量跟踪,询问客户的反馈,采取相成的改进措施。8数据安全
数据备份
双语平行语料加工的各环节中,要确保双语语料的安全、有序,并及时做好数据多重备份8.2文档管理与日志
双语语料的整个加工过程应记录操作日志,及时撰写和汇总加工过程中的技术和管理文档,8.3
数据存储
服务提供方应对客户的需求义件、加工过程文件及最终交付文件按客户及几期分类存诺,以便语料信息查询及客户跟踪:
-rrKaeerKAca-
GB/T40035—2021
附录A
(资料性)
双语平行语料加工人员的培训
A.1对双语平行语料加工人员行语料加工所需知识和技能的培训可以:a)为双语平行语料加工人员提供语料加工所需的技能;b)
有助手满足逐渐增长的语料加工需求,提高效率;e
推动双语平行语料加工技术的发展和创新A,2双语平行语料加工人员的培训可包括:高级义本处理技巧,使用脚本处理双语文本;a)
b)脱敏和语料清洗(包括去除语料中的乱码,格式标记等)技术,以便能够更好地处理双语语料对齐的场景;
使用质量工具在项口结束时执行质量检查,如检查格式的合法性等:8
rrKaeerkAca-
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。