杭州佛学院梵文识别方法 获得国家知识产权局正式授权

编辑:西行者 日期:2020-06-17 10:42

640.jpeg

  从十九世纪末开始,印度的文学宗教成为世界学术研究中的重要课题。历史遗留下来的文献有:用阿帕伯朗沙语(Apabhraṃśa)写的奥秘诗歌、一部古典泰米尔语著作、尼泊尔的佛教尼瓦尔语(Newari)文献及尚处于开始阶段、属于新兴佛教的新印度文学资料、在尼泊尔保存的佛教经文和在斯里兰卡及东南亚流传下来的上座部巴利文经文。


640-1.jpeg

  研究人员又在中亚、克什米尔、西藏和阿富汗发现了一些被认为丢失了的梵文著作、有的已十分残破。在这些出土文献中,从所使用的文字可以看出年代的差别。新疆出土的文献使用的是早期的婆罗米字,尼泊尔出土的文献使用的是十一世纪之后的婆罗米字。在世界各地的研究单位中,对这些文献的研究有两个相同的步骤:


  1. 对文字的识别。

  用拉丁字母和印度现行的天城体文字对古文字进行转写和出版。


  2. 对语言的识别。

  把基本连写的文字按词和句断开,对文献内容进行解释。研究工作非常艰难,最长的研究项目历时67年。


  现在印度和欧美国家已经开始尝试发挥计算机在梵文学习和研究工作中的作用,以提高效率和准确性。


640-2.jpeg

  梵文学习和研究在欧美国家一直为学术界所重视。19世纪末的西欧各国尤其是德国,从比较语言学的角度对梵文进行了大量研究,为今天的梵文研究打下了坚实基础。


  进入计算机时代,1985年美国NASA国家宇航局研究中心的Rick Briggs研究员在《人工智能》杂志上发表论文,指出梵文是一种能够作为人工智能中语义表达的自然语言。近年来学习梵文的热潮重新席卷了德国等地。


  英国《每日邮报》(2015年5月8日)报道:在德国,有14所顶尖的大学教授梵文,八月份为期一个月的暑期课程每年都会收到来自世界各地的申请,其中不乏学员为了进行计算语言开发来学习梵文的语法结构。


640-3.jpeg

  利用现在计算机技术带来的便利,可以促进我们对梵文文献的学习利用,加速佛经的梵汉对比研究。作为梵语佛典计算机识别研究,一方面需要实现对佛典文本的数字化和字符自动化识别,可以节省大量的识别转写人力工作,所得的数字化成果还可供进一步建成可检索的佛典数据库,大大方便相关研究;另外一方面还需要进行梵语文本的自动分词,乃至最终实现自动翻译,加快梵文佛典的现代汉语翻译进程,这是梵语研究过程中极为耗时的过程,它的加快可以大大方便对梵文佛典原文的理解和开展佛教文本的梵汉对比研究。


  由于梵文对于计算机研究的重要意义,欧美各国已经紧密开展了相关研究。目前最新的进展,德国自由大学Oliver Hellwig博士2011年基于其博士研究成果成立了梵文计算机文字识别软件公司,在梵文相关文字识别方面处于世界领先地位。在计算机语法分析方面,法国国家信息与自动化研究所(INRIA)的Gérard Huet早在1996年就开始了该领域的研究,通过与印度海德拉巴大学Amba Kulkarni等学者合作,现在已经建立起在线语法分析系统,能够进行不同层次语法分析,是该领域的杰出代表。此外国际梵语研究界和计算机科学界一直在进行活跃的跨学科合作,每年都有相关学术会召开,如国际梵文计算语言学论坛International Sanskrit Computational Linguistics Symposium等。这些研究展示了梵文计算机研究的光辉前景和独特价值,激励着中国梵文学者尽快开展该研究,大力发展这一重要研究领域。


640-4.jpeg

  杭州佛学院经过两年的梵语公开课教学,取得了瞩目的成绩,成功培养了一批具有较好梵文功底的学员。其中,刘松柏学员率先进行了梵文计算机文字识别的研究,并得到杭州佛学院的支持。为了有计划建立杭州佛学院梵文计算机研究基础,杭州佛学院2017年4月由梵文教研室李炜老师牵头建立了“中国杭州梵文计算机文字识别与语法分析研究”课题。其中文字识别、语法分析研究工作分别由梵文班学员刘松柏、万爽负责,取得了较好的研究结果。


  在前期研究中,刘松柏研发了“梵文天城体印刷字符拉丁转写计算机识别程序”,实现了清晰梵文图像文字识别及拉丁自动转写,此方法2016年12月7日申请了国家发明专利,并于2020年4月21日获得国家知识产权局正式授权。


640-5.jpeg

  该方法借鉴了汉字中田字格、九宫格的编码方法,采用比较简洁的算法进行梵文字符的编码识别,主要分为三个步骤:


(1)对包含梵文天城体印刷字符的字符图片进行扫描,基于字符块间垂直最大空白空间进行梵文天城体印刷字符块分割,得到若干梵文天城体印刷字符块;


(2)对得到的梵文天城体印刷字符块进行识别,得到梵文天城体印刷字符块对应的特征向量;


(3)将得到的特征向量与标准拉丁字符的特征向量进行对比,根据对比结果,将识别的梵文天城体印刷字符块转为拉丁字符。


640.jpeg

  该方法实现了从梵文天城体无噪声印刷字符图像到对应拉丁字符的直接转换,且准确度高。所用的图像识别算法方便易行,提供的技术方案易于实现。该项研究对梵文字符识别作了有益的探索,为进一步构建梵文文本库引入深度学习等算法实现梵文古文本的识别奠定了基础。


640-7.jpeg