在数字世界中保护乌尔都文字的斗争

2024-10-30 23:51来源:本站

  

  

  泽拉克·艾哈迈德(Zeerak Ahmed)在美国生活了多年,为世界上一些最大的科技公司工作。但有一件事让他越来越沮丧,那就是“计算机将非拉丁语言视为二等公民”。其中一种语言是他的母语乌尔都语,乌尔都语是巴基斯坦的国家语言和通用语,在印度也被广泛使用。艾哈迈德来自拉合尔(Lahore),他曾多次与朋友和家人谈论使用现有乌尔都语键盘或阅读乌尔都语字体的困难。他还目睹了许多年轻人在没有更好的解决方案的情况下,转而求助于英语或所谓的罗马乌尔都语,用拉丁字母进行语音音译。

  当他在哈佛大学攻读工程设计硕士学位时,他想出了自己的解决方案。在这个项目上工作了五年之后,去年他推出了Matnsaz的iOs应用程序。这款应用程序为用户提供了一个更精致的乌尔都语键盘,可以按形状对字母进行分组,自动纠错,甚至建议后面的单词。与主流设备上的标准乌尔都语键盘相比,这是一个明显的改进。

  尽管乌尔都语是世界上第十大最广泛使用的语言,但根据参考出版物Ethnologue,由于多种限制,乌尔都语在数字时代已经落后了。艾哈迈德说,许多科技行业以外的巴基斯坦人认为乌尔都语文本与计算机不兼容。但他认为,这是计算本身的缺陷,而不是语言本身的缺陷。人们正在努力改变这种说法。

  “我们生活在一个文字饱和的社会,所以年轻一代对排版复杂性的接触非常高,”平面设计师和网页开发人员阿比拉·卡姆兰说。“他们期待复杂的结果。”乌尔都语中可用的内容往往不能满足这些期望,因为由于其书面形式的复杂性,作者长期以来一直抵制数字化。(乌尔都语使用纳斯塔利克字体,这是一种华丽而流畅的阿拉伯文字变体,特别复杂,因为每个字母的形状都依赖于下一个字母。)这意味着现在乌尔都语的数字内容很少能与用户习惯的拉丁文字相竞争。罗马乌尔都语经常被用作网上的替代语言。早期数字化乌尔都语的尝试依赖于纳希克阿拉伯语字体,这种字体更直接,因此更容易编码。但有些人认为,纳斯塔利克字体在书写乌尔都语时不如纳斯塔利克字体。随着我们的生活越来越依赖于数字信息和交流,一些人担心,乌尔都语真正书面形式的数字版本的缺乏可能会导致乌尔都语对年轻一代变得无关紧要,因为他们比长辈花更多的时间上网。

  艾哈迈德说:“人们认为乌尔都语不能用于现代目的,所以这门语言很难发展,很难与年轻人保持联系。”

  艾哈迈德和卡姆兰是带头阻止这种情况发生的人之一。Matnsaz应用程序是一个更大的同名计划的一部分,该计划旨在为在线乌尔都语建立消费者和开发者工具。目前Ahmed的工作包括Makhzan,一个开放源码的乌尔都语文本语料库,以及Naqqash,一个阿拉伯文字的字符串处理库。

  艾哈迈德说,在2017年正式开始这项工作之前,他一直在考虑这个想法。他说:“在欧洲,大多数人都在使用母语的电脑,但在巴基斯坦,我们不这么做。”“如果你与科技行业以外的巴基斯坦人交谈,他们会认为你无法用乌尔都语进行现代计算。”Ahmed认为,如果乌尔都语被赋予与拉丁文字同等的重要性,并有相应的工具来支持它,乌尔都语可以很容易地以同样的方式用于计算。他说,这个想法成为了Matnsaz的基础,因为乌尔都语的很多进步都受到了阻碍,仅仅是因为基本的构建模块不存在。

  全球大约有2.3亿人说乌尔都语,主要在巴基斯坦和印度,以及世界各地的散居社区。卡姆兰说,虽然有个别国家尝试将英语数字化,但需要弥合不同努力之间的差距,以产生全球影响。她指出,乌尔都语的印刷术直到20世纪末才被采用,因为纳斯塔利克字体很复杂,而且巴基斯坦社会对纳斯塔利克字体缺乏兴趣。在此之前,报纸和书籍都是手写的,然后根据需要进行复印。

  Kamran说,巴基斯坦与Nastaliq有着长期的文化联系,尤其是Lahori Nastaliq——乌尔都语的书写风格——用现有的数据集编码可能很复杂。她补充说,在乌尔都语数字化的努力中,理解和考虑乌尔都语与语言的文化联系也很重要。“我意识到,如果不考虑乌尔都语和纳斯塔利克语在意识形态上是如何相互联系的,我们就做不到这一点。”

  卡姆兰说,巴基斯坦的社会政治斗争和建立穆斯林-巴基斯坦民族认同的努力,导致了对某些被认为是西方或外国影响的变化的抵制。乌尔都语与巴基斯坦的身份交织在一起,是该国的官方语言,尽管那里还有许多其他语言。在印度分治前,说乌尔都语的人把这种语言作为反抗英国殖民的一种方式。今天,它仍然是印度的一个紧张点,在那里仍然有数百万人说它,但正在受到威胁。虽然乌尔都语不是穆斯林的专有语言,但它与该地区的信仰实践密切相关。卡姆兰说:“一提到拉霍里·纳斯塔利克,我们就会同时想到巴基斯坦人和穆斯林的身份,因此我们抵制改变。”

  正是由于这种联系,Zeeshan Nasar和他的父亲Nasrullah Mehr创办了MehrType,这是一家专注于定制乌尔都语、阿拉伯语和波斯语字体的数字字体铸造公司。梅尔是巴基斯坦著名的书法家,他使用的是拉霍里纳斯塔利克字体。对他来说,现有的基于连接线的键盘——在输入阿拉伯语和纳斯塔利克语等文字时,它可以根据输入的内容适应不同的字母风格,从而提供灵活性——根本不够。纳萨尔将乌尔都语中基于结扎的方法称为“jugad”,这是乌尔都语中临时解决方案的术语。纳萨尔说:“使用基于字符的字体,如果你在键盘上输入一个新单词,而它无法识别它,它就会破坏它,破坏单词和字母的风格。”

  这就是为什么MehrType专注于创建基于字符的轻量级字体,这些字体可以很好地用于网页嵌入。纳萨尔说,如果一个文件太大,嵌入到链接中需要很长时间才能工作,并可能导致网站速度变慢。该团队目前正在测试一种新的设置工具,它不仅可以提高字体的在线安全性,还可以包含排版功能。未来,该公司的目标是通过将不同的乌尔都语书法风格转化为版式来保存它们。它还希望通过提供定制排版的服务、提供学习乌尔都语排版的短期课程,以及将现有的书籍和文本转换为梅尔字体,让更多人参与到数字化乌尔都语的使用中来。

  在边界另一边的印度,桑吉夫·萨拉夫(Sanjiv Saraf)在Rekhta的旗帜下策划了最大的乌尔都语诗歌在线图书馆。这个在线平台以乌尔都语方言的早期名称命名,将乌尔都语内容数字化,使其更容易获取。2013年,该网站从50位诗人的作品开始,现在已经有5000多名作家的作品。Saraf的目标是将乌尔都语带给更广泛的受众,该网站以各种形式呈现乌尔都文学和诗歌。萨拉夫说:“我们在网上的很多内容都是背诵的,这样人们就能对措辞有个概念,因为发音对语言来说也很重要。”Rekhta团队由230名员工和100名志愿者组成,他们每天扫描大量的乌尔都语书籍,并在网上发布内容,但在他们能够输入乌尔都语文本和文学作品之前,他们无法真正实现作品的数字化。目前乌尔都语缺乏光学字符识别(OCR)——将打字、书写或印刷的文本转换为机器编码的文本——这限制了乌尔都语扫描材料的可访问性。卡姆兰说,造成这种情况的原因有很多。

  “首先,文本在印刷和在线上的阅读方式不同,因此产生了可访问性问题。你不能在图片中搜索,这意味着任何类型的研究和寻找(可用的)资源变得困难,因为你可能永远都不知道它们在那里。罗马乌尔都语也没有固定的拼写,所以没有一种方法可以搜索乌尔都语材料,”她说。

  卡姆兰在尝试为卡拉奇城市实验室创建一个乌尔都语网站后,开始了她的排版硕士学位。卡拉奇城市实验室是一个专注于通过数据研究、教学和倡导卡拉奇发展和城市化的组织。她发现缺乏可用的印刷资源是一个绊脚石。她的目标是帮助世界各地的开发人员和语言专家通过考虑其文化历史来实现乌尔都语的数字化。她说,只有同样理解纳斯塔利克与巴基斯坦穆斯林身份认同建设的联系,才能理解它的重要性。“乌尔都语和纳斯塔利克语在意识形态上相互联系,”卡姆兰说。由于乌尔都语的敏感性,她认为,在取得进展之前,对乌尔都语表达方式的任何改变都必须得到社会的接受。

  “结果应该是创建复杂的资源,用户可以在文档中使用这些资源来创建乌尔都语的详细的风格化文档,就像我们在英语中看到的格式化一样,”她说。

  乌尔都语数字化目前的发展阶段,键盘和基本字体已经可用,已经进行了很长时间,还有很多工作要做。纳萨尔从事乌尔都语开发已有18年。他想要开发的许多字体仍在开发中,因为字体开发是一个非常昂贵的过程。但在过去的十年里,我们确实取得了很大的进步。多年来,开发人员一直依赖inpage(一种用于阿拉伯语、乌尔都语和波斯语等语言的文字处理器和页面布局软件),现在他们在数据集和设计上进行了多种努力。在过去几年中,乌尔都语数字化工作和资源开发的快速增长带来了希望,这一基础将变得更容易建立。现在,随着人工智能语言模型受到关注,谷歌等科技巨头可能会为这一势头做出贡献。该公司在7月份宣布,人工智能平台Google Bard现在支持包括乌尔都语在内的9种印度语言。

  萨拉夫对这一进展有第一手的了解,他很乐观。“随着我们读者群的增长,我不认为乌尔都语在网上陷入困境。我们在Rekhta上有2400万关注乌尔都语内容的人,而且每个月都在增长,”他说。“因此,关键在于以一种易于访问的方式呈现信息。”

度享网声明:未经许可,不得转载。