浙江日报

首页 » 常识 » 预防 » 人工智能在方志编纂中的运用初探
TUhjnbcbe - 2020/11/28 2:25:00

——以百度人工智能在《浙江通志·大事记》编纂中的应用为例①

①此文撰写时,《浙江通志·大事记》尚未正式出版,文中所述均指《浙江通志·大事记》(终审稿)。

提要

作为方志中七种体裁之一,大事记是新方志的重要构成,在新修《浙江通志》中就单列有《大事记》一卷。而人工智能是当前计算机领域的一门新兴学科,其在资料的自动获取以及文字处理方面有着独特的优势,可将大量人力从繁杂的基础工作中解脱出来。本文通过百度人工智能在《浙江通志·大事记》编纂中的应用为例进行探讨,以期为相关技术在方志编纂中的应用提供启发和思路。

关键词:人工智能地方志大事记编纂

人工智能(ArtificialIntelligence)的概念最早于年被提出,随着大数据、高性能计算以及深度学习技术的快速发展,人工智能已经衍变成为用于模拟、延伸人的智能的新兴技术,主要的研究领域包括机器人、语言识别、图像识别、自然语言处理和专家系统等[王燕鹏、韩涛、赵亚娟、陈芳、王思培:《人工智能领域关键技术挖掘分析》,《世界科技研究与发展》年第8期。]。年7月,美联社与科技公司AutomatedInsights合作开发了Wordsmith人工智能写作平台,并使其自动编写企业财报,该平台几秒钟便能生成一篇—单词的新闻快讯,比人力写作效率高十倍以上[吕倩任媛媛:《颠覆还是辅助?“新闻+人工智能”的实践与反思》,《青年记者》年第30期。]。有学者认为与传统的创作相比,人工智能写作有着其独特的优势,主要体现在文本采集精准化、文本加工高效化、文本定制个性化等方面[李君婷:《人工智能写作发展前景探析》,《新闻研究导刊》年第13期。]。国内目前对此方面的研究,大多集中于新闻写作且进展显著,已大规模运用于财经、体育比赛、地震预报、交通监控和社交网络等相关领域的新闻创作[*国春:《人工智能新闻写作的路径探析》,《出版广角》年第15期。]。

人工智能在方志编纂领域的应用研究尚属空白,大事记作为现代方志七种体裁之一,其存在着有别于其他方志体裁的体例特点和要求,这使得人工智能在大事记编纂中的应用变得可能。百度人工智能是由百度公司研发的人工智能服务平台,提供了语音技术、图像技术、自然语言技术等多项场景能力和解决方案,也是目前国内人工智能领域研究的先驱。笔者以参与《浙江通志·大事记》编纂为契机,为此进行有益的探索,尝试将百度人工智能相关技术运用到大事记的编纂中,以此达到提高编纂效率的目的。

一大事记的体例和特点

“志书对大事的记述,古已有之,但对一个地方从古至今或某个确定的年段的大事进行综合记述,专门集成一卷(编),却是现代志书的新创举”[李云章:《编纂地方志大事记之管见》,《福建史志》年第3期。],中国地方志指导小组所颁《关于地方志编纂工作的规定》明确“地方志的体裁一般应包含述、记、志、传、图、表、录等”。其中“记”即为大事记,是一种按时间顺序客观记载特定行*区域、*府部门或事业单位在一定时期内发生的自然、*治、经济、文化、社会等方面大事要事的应用性文献。根据中国地方志指导小组印发的《地方志书质量规定》规定,大事记需达到:“选录人事得当,重要事项不漏,时间、地点、人物(单位)、结果等要素齐备”等要求,但对大事记该采用何种体例,并未做限定。

从大事记编纂规律及编纂实践来看,体例大致有三种:“(一)编年体。以时系事,一事一记。按照事件发生的时间,逐年、逐月、逐日的记叙。(二)纪事本末体。以事系文,着重于事件的始末,以事件为中心,按其时间次序做系统叙述。(三)编年体和纪事本末体相结合。即以编年体为主,对于某些特定的事件,在其开始时间或结束时间(如一项重点工程建设)做系统记叙”[吕金祥、李海艳、谢奎江:《如何编写大事记》,《中国地方志》年第11期。]。

具体就大事记的编纂过程而言,一般应遵循以下几个原则:

(一)一事一记原则。大事记所有条目必须做到一事一记,也就是发生的大事只能记录在大事记的一个条目中,一个条目中只能记录一件大事。绝不能出现几件事放在一个条目中,或一天内发生的数件大事记在一个条目中,或一件事记几次等情况。

(二)要素完整原则。大事记所要记述的内容包括:时间、地点、单位、人员、事件等要素,也就是要记述在什么时间、什么地点、什么单位或人员发生了什么事、事件内容是什么、有什么影响等。

(三)客观真实原则。“大事记者,列其事之目而已,无所褒贬抑扬也”[吕祖谦:《大事记解题》,《四库全书》第册,台北商务印书馆景印文渊阁本,年,第页。],大记事所记载的事件都是真实发生过的事情,不能把没有发生的事凭想象而写进大事记中,也不能违背所发生事件的历史原貌而进行随意的包装、修改与创造,而应尊重历史事实、尊重事件的原貌。

(四)简明精练原则。对每件大事的记述要简明扼要,用最简短的语言把事

件过程和内容记述清楚。同时,要注意详略得当,重大事件、重要事件、首发事件、影响深远的事件适当详记,次要事件、经常性事件尽量简记,有些甚至可以不记。

二人工智能技术在大事记编纂中的应用

传统的人工智能写作是计算机语言处理的结果,通过将数据输入到计算机,再套用固定的算法将其重新排列组合并以特定的格式呈现,因此得以在新闻创作领域广泛的应用[新闻报道一般具有相对固定的5W原则,即何时(when)、何地(where)、何事(what)、何(why)、何人(who)。]。其大致可分为“获取和消化信息、分析数据和信息、选择新闻点套用模板优化、输出并发布”等四个步骤[王二龙李明非:《“机器新闻写作”:历史、现状与应对策略》,《新闻战线》,年第10期。]。

大事记既有与新闻类似的“一事一记”“要素完整”原则,又有其特殊的“客观真实”“简明精炼”原则。根据大事记的体例特点及编纂原则,人工智能在其编纂中应用的基本原理可概述为,通过计算机自动的获取特定来源的资料,然后经语义分析、情感分析、文本摘要等技术进行优化精简,再套用固定算法将其重新排列组合,并以特定格式呈现。对于大事记编纂中所涉及人工智能相关技术的具体实践应用,可阐述如下。

01

自动化获取参考资料

人工智能写作,其本质是对已有信息的重新组合。因而,相关技术的运用必须依靠大数据,没有数据的支撑,人工智能也是“巧妇难为无米之炊”。在大事记的编纂中,这个大数据即为各种参考资料。梁启超曾说“方志之著述,非如哲学家、文学家之可以闭户瞑目其理想而遂有创获也,其最主要之工作在调查事实,搜集资料。”[陈其态陆树庆徐蜀:《梁启超论著选粹》,广东人民出版社,年,第页。]就大事记而言,其所载大事,非编纂者凭空想象,均有其资料来源以为佐证。在已出版的《浙江历史大事记》的编纂过程中“仅主要参考文献就有历代典籍类种,今人著作类种,档案、文献资料类92种,报纸、杂志类33种,新编地方志种,共计种”[李志庭:《略谈浙江历史大事记的编纂特点》,《中国地方志》年第11期。]。

“报刊资料是历史活动的真实录,所载内容也是极其丰富而又相当具体的,基本情况和线索还是能反映出来,所记时间、地点、人名等多较准确,不失为珍贵的历史资料。”[*:《资料收集与资料长编编写》,年10月24日,

1
查看完整版本: 人工智能在方志编纂中的运用初探