三年内完成一万种古籍智能化整理,对大众免费开放
2022-03-20
来源:人民资讯
古籍,承载厚重的历史和文化。中国古籍一直面临数字化程度低、以文本形式进行数字化的古籍数量少、难以检索等问题。数据显示,我国现存古籍有20万种,据不完全统计,其中有数字化扫描影像的已经有8万种,而实现文本数字化的仅有3-4万种左右。这对于古籍内容检索和开展研究造成了不便。古籍数字化,是保护和合理利用古籍的方向。
昨日,字节跳动宣布向北大教育基金会提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,利用智能技术加速中华古籍资源的数字化建设,向全社会提供公益化服务。
据了解,该实验室将调动国内外的相关力量,在三年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。提供开放、体验良好的阅读服务和基本文本库,并借助知识图谱等技术帮助学者高效检索和利用古籍中的信息。
同时,项目也将推出结合OCR、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台,并对社会大众免费开放,便于收藏机构、研究者、相关专业的师生和广大古籍爱好者自行完成古籍数字化工作,加快整个行业数字化古籍资料的效率。
“北京大学-字节跳动数字人文开放实验室”重视传承中华传统文化,希望将平台建设成为开放、共享、可对古籍进行充分检索利用的信息平台,以应对这些古籍保护与利用中的挑战。希望通过公益捐赠,支持北大的古籍数字化成果全面转化为社会服务。让更多的研究者、爱好者以更高效、便利的方式获取古籍里蕴藏的丰富知识。
文化传承是字节跳动公益重点关注的领域。2021年6月17日,字节跳动联合中国文物保护基金会,在国家图书馆成立古籍保护专项基金,初期启动资金人民币1000万元,用于修复《永乐大典》“湖”字册等105册(件)珍贵古籍、培养100名修复人才等项目。据了解,这些修复的古籍也将逐步引入古籍数字化平台。
字节跳动公益还发起“寻找古籍守护人计划”,邀请专家学者、文化名人、抖音创作者通过知识讲解、说书、绘画等形式传播古籍内容,普及古籍知识,传播古典文化。