首页 > 即时 > 正文

“识典古砭 籍”来了!三年将上线一万种儒释道经典


更新日期:2022-10-13 12:36:23来源:网络点击:1935210

  中国青年报客户端讯(中青报・中青网记者 沈杰群)10月11日,由“北京大学―字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。 

  据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。

  当前,中国的古籍数字化面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有8万种完成影像数字化扫描,近4万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。据“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。 

  与其他古籍数字化平台相比,“识典古籍”页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。

  未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。

  (图片由主办方提供)


相关:

北京新增12例本土确诊病例和6例本土无症状感染者  中新网10月13日电 据北京市卫健委微博消息,10月12日0时至24时,北京市新增12例本土确诊病例(其中4例已通报)和6例无症状感染者(其中1例已通报),无新增疑似病例;新增2例境外输入确诊病例和4例无症状感染者,..

上海新增本土确诊病例3例和本土无症状感染者44例  中新网10月13日电 据上海市卫健委微信公众号消息,2022年10月12日0—24时,上海市新增本土新冠肺炎确诊病例3例和无症状感染者44例,其中2例确诊病例和43无症状感染者在隔离管控中发现。新增境外输入性新冠肺..

上一篇: 呼和浩特首次使用抗原检测推进动态清零
下一篇: 省电节流的电影院,如何度过这个片荒寒冬?