(相关资料图)
鞭牛士报道 10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。
“识典古籍”项目负责人现场讲解
据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。
当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有8万种完成影像数字化扫描,近4万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。
活动相关海报
据“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。
“识典古籍”网页截图
未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
一年多来,字节跳动在古籍修复和活化上也有所进展。此前,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出“寻找古籍守护人”计划,旨在激励创作者通过音乐、说书、绘画、复原美食等形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。
标签:
-
属于王亚伟的时代一去不返近日屡有传闻称,昔日“公募一哥”王亚伟已被监管部门带走调...
-
今头条!渤海化学:全资子公司渤海石化拟投建丙烯酸酯和高吸水性树脂新材料项目渤海化学公告,全资子公司渤海石化拟投资建设丙烯酸酯和高吸...
-
上常从容与信言诸将能不文言文翻译通假字_上常从容与信言诸将能不,各有差翻译想必现在有很多小伙伴对于上常从容与信言诸将能不,各有差翻译...
-
环球快看:信濠光电:公司暂未涉及上述VR、MR领域同花顺金融研究中心6月7日讯,有投资者向信濠光电提问,请问...
-
天天报道:印尼东爪哇省附近海域发生6.0级地震印度尼西亚东爪哇省南部海域8日凌晨发生6 0级地震,目前尚无...
-
广西壮族小伙的军旅梦:从篮球冠军到“武警精英”中新网舟山6月7日电(林波刘纲宋鑫雨)“成为武警最精锐部队中...
-
焦点消息!最新调查显示:我国消费者对食品添加剂仍存在四大误解食品添加剂的使用由来已久,伴随着现代食品加工工艺的改进和...
-
迟到检讨书自我反省1000字_迟到检讨书1、本人文笔很差,不过希望可以帮到你检讨书尊敬的领导:今天...
-
@ 全国游客,贵州国有A级景区门票五折优惠6月7日,第十九届中国(深圳)国际文化产业博览交易会开幕,...
-
制订还是制定法律_制订还是制定 天天报道想必现在有很多小伙伴对于制订还是制定方面的知识都比较想要...
- 智联世界,元生无界!快手虚拟人IP亮相2022人工智能大会
2022-09-07 10:47:54
- 机器人界“奥林匹克”!2022世界机器人大会8月18日举行
2022-08-10 09:58:58
- 2025年全球人口将达到90亿!机器人将在农业领域大显身手
2022-07-14 09:41:10
- 中科院院士蒋华良:AI+分子模拟与药物研发将大有可为
2022-07-14 09:37:00
- “千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕
2022-07-07 09:28:34