• 11月24日 星期日

诸暨人业余时间做公益网站 成古籍汉字最强数据库

诸暨人业余时间做公益网站 成古籍汉字最强数据库

很多人听到“国学大师”这四个字,可能就会想到像王国维这样的国学大家。

在互联网上,有一个网站的名称就叫“国学大师”,它集成古典图书2万余种28万余卷约24亿文字,数据库的纯文字大小约6.5G,是国内最大的非营利性数据库,也是免费查询古籍和汉字影响力最大的网站。目前,“国学大师”的全球用户访问量每天为几万IP。

而一手打造这个网站的创始合伙人,就是“诸暨木柁”郦勇。

为什么会将网站命名为“国学大师”?郦勇说,网站是从最基础的小学查字典做起,满足每一个传统学问爱好者各个阶段的需求,“让每一个人都有成为国学大师的可能。”

他带领志愿者做了一件了不起的事

1975年出生于浬浦的郦勇,是浙江越文化研究中心绍兴文理学院越文化研究院兼职副研究员,中国西施文化研究中心研究员,绍兴市哲学社会科学专家库成员、诸暨作协会员,曾出版研究专著《太平天国在诸暨——以包村为中心》《诸暨摩崖碑刻集成》等。

最近,他和阮建根合著的《诸暨摩崖碑刻集》,还荣获绍兴市第九届“蔡元培社会科学奖”。

“国学大师”网创建于2014年,创建人是邵长平,初衷是做一个公益性的免费资料分享站点,最主要是提供字典查阅功能。

“当时是很小的一个网站,用户基数也就200来人,我就是其中一个。时间长了,我和站长成了好朋友,于是一起做些网站修改之类的。慢慢的,用户越来越多,网友需求也越来越大。因为服务器的关系,这些要求变得有些奢侈,于是就有了升级服务器的想法。”郦勇回忆。

由于是纯私营的公益网站,没有任何收入,资金就成了最大问题。当时郦勇手头还算宽裕,就出资给网站添置了一些硬件设施,在上海的机房架设了下载服务器,提供以古籍为主的下载服务,因此郦勇成为“国学大师”网的创始合伙人。

“在字典服务上,我们开始更加快捷方便的部件拆字查询的建设。这是一个数据量巨大的工作,于是我召集了一批志愿者,采用众包的方式,仅仅用了一个月的时间,就完成了看上去几乎不能完成的工作,将涉及Unicode的CJK扩展A、B、C、D、E区的20多万个汉字,拆分成一个个零碎的偏旁部首甚至笔画,使用者通过输入汉字中任何部件,就可以查到相关组合的所有汉字,极大方便了难字的查阅。”

后来,又有志愿网友做了甲骨文和金文的在线字典,只要输入甲骨文编号或者文字,就可以查阅到这个字曾经出现在哪片甲骨中,并且可以直接浏览到这块甲骨或者钟鼎的照片或者拓片,极大方便了专业的研究者。

事实上,做网站是很辛苦的一件事,“由于是业余打理的网站,很多东西都不是很完备,再加上访问量庞大,网站经常会崩溃,于是只能不断地更新设备,完善程序。”

有时,还会有来自同行或者网络公司的恶意攻击,甚至还有举报非法信息的。有一次就被上海市网络与信息安全部门约谈,理由是被人举报说古籍中含有非法信息。“好在安全部门清楚这件事情,也非常体谅我们,并没有为难。但是造成的后果就是我们下架了大部分明清小说的文字版,因为如果存在,还可能继续被人举报。”

很多人问郦勇,这样千辛万苦地去做一个公益网站,还没有任何经济上的收益,值不值得,累不累?“累,肯定会很累,抛开数据的基本维护不说,每天面对成百上千的网友提问交流,就占据了大量的时间。”至于值不值得,他说,“世界上很多事情是无法用金钱去衡量的。”

成为国内最大的非营利性数据库

目前,“国学大师”网集成古典图书2万余种28万余卷约24亿文字,数据库的纯文字大小约6.5G,是国内最大的非营利性数据库。“国学大师”网分为史、子、集、诗、儒、易、艺、医、丛、道、佛11大部,基本囊括了中国常见的古代图书,是目前网上收录古典文学作品最全最多的图书集成网站,提供免费无门槛的在线查阅和下载。

国学大师网自主开发的部件查字系统,可以查询到20万个汉字,支持Unicode的CJK扩展A、B、C、D、E区。所关联近60种工具书,有《汉语大字典》《汉语大词典》《现代汉语词典》《康熙字典》《说文解字》《古汉语字典》《故训汇篆》《古文字诂林》《说文解字诂林》《中文大辞典》《宋本广韵》《字形演变》等,实现检索文字和图像同步。

通过几年的发展,“国学大师”在国内外影响非常大,各大高校的老师会向学生们推荐网站以及相应的APP和讨论群;韩国、日本、加拿大、新加坡的汉学研究者经常会在留言区留言讨论相关问题。

在国内,大部分大学历史学、文献学、文字学等中文相关的专业,教授们都会向学生们推荐“国学大师”数据库,特别是文字这一块,有专业的志愿团队不断地完善在线字典系统,可以查询包括甲骨文之内的大多数类型的文字。

“曾经有人戏言,如果把古汉字放在我们群里没人能认出来的话,那基本上就没其他人能够识别了。”对此,郦勇颇为骄傲。

让每个人都拥有免费网络图书馆

2018年3月,郦勇还受邀参加了哈佛大学主办的“中国历史研究的网络基础设施国际研讨会”,这次会议旨在为解决汉学数据化制订一个网络基础的国际标准。在会上,郦勇向来自世界各地高校以及研究者介绍了“国学大师”网站的运行及数据库的情况。到场的很多学者告诉郦勇,他们都在使用“国学大师”数据库用作研究汉学。

诸暨人业余时间做公益网站 成古籍汉字最强数据库

2018年3月,在“中国历史研究的网络基础设施国际研讨会”上,郦勇(右)与日本京都大学的Christian Wittern教授(左)合影留念。

最让郦勇感动的是来自日本京都大学的Christian Wittern教授,特意来郦勇主持的分组会议中,就为了告诉郦勇一件事,说他和同事都是“国学大师”网的忠实使用者,他们每天都在祈祷这个“国学大师”网千万要坚强存在,不要倒闭,如果倒闭了,他们都不知道该怎么办了。“因为网站的运营是个人业余管理,并且服务器经常会过载,所以访问有时候会中断。”

在那次会议中,郦勇结交了很多朋友,之后一直保持联系,也和很多机构交换了共享数据,“例如日本京都大学制作的《四库全书》图文对照系统,他们本身因为图片版权问题不能上线,就拿给了我们来上线,于是就有了国内最好的免费《四库全书》全文检索图文对照系统。”

在数据库方面,目前“国学大师”网可以通过开放接口,共享到哈佛燕京图书馆数据库、上海家谱数据库、国图古籍数据库等各类在线数据。现在网站还在不断地扩容,提供更高效的查询服务。

“我们一直打算做一部权威性的网络版字典,超越《汉语大字典》的那种。”郦勇说,“我们的最终目标是让每一个人都拥有一个属于自己的免费网络图书馆。”

上一篇新闻

【国学书讯】刘梦溪《中国文化的张力》

下一篇新闻

国学对现代教育大师的影响。丘成桐篇

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。