中央民大学生创新团队发布藏文手写体数字数据集

　　12月3日，中央民族大学56创孵化项目大学生创业团队——巨神人工智能科技，发布全球首套藏文手写体数字数据集TibetanMNIST，并在国内领先的数据科学平台科赛网独家首发。这个学生创新团队曾于今年6月被评为“北京地区高校优秀大学生创业团队”。

图为TibetanMNIST的数据样本。图片由才让先木提供。

　　什么是MNIST？

图为MNIST 数据集。图片由才让先木提供。

　　MNIST数据集简而言之就是一个手写数据识别库，包含有大量的手写数字图像，可以用来识别各种手写体数字。MNIST 数据集来自美国国家标准与技术研究所, 由Yann LeCun教授主导建立。该数据集由250个不同人手写的数字构成, 这250个人中50% 是高中学生, 50% 来自人口普查局的工作人员。该数据集共包含70000张数字图像，其中训练集60000张，测试集10000张。自MNIST数据集建立以来，被广泛地应用于检验各种机器学习算法，测试各种模型，为机器学习的发展做出了不可磨灭的贡献。

　　用它做什么？

　　据团队负责人袁明奇同学介绍，现在很多人都用过触屏板手机或电脑的手写功能，每个人都有自己的书写风格，那么当我们写下数字之后，如何让计算机成功地识别呢，我们可以通过机器学习的方法来解决这个问题，如使用卷积神经网络模型，模型的结构如下所示：

图为LeNet5卷积神经网络模型结构。图片由才让先木提供。

　　通过输入MNIST数据对模型进行训练，最终会获得一个可识别手写体数字的网络模型，这就为计算机识别手写体数字提供了一种很棒的方法。MNIST数据集的生命力极其旺盛，自其建立以来，在其基础上衍生出了更多的变式，如FashionMNIST，它们都给出了不俗的表现。

　　将民族文化融入机器学习

　　“在一次会议上，我无意间看到了一位藏族伙伴的笔记本上写着一些奇特的符号。他告诉我，这些是藏文数字，这对于从小使用阿拉伯数字的我十分惊讶，这些奇特的符号竟有如此特殊的含义！我当时就产生了一个想法，能不能让计算机也能识别这些数字呢？”袁明奇告诉记者，“当时想法很简单，就是希望将少数民族文化融入到机器学习中。”

　　“这个想法得到了大家的一致认可，于是我们开始模仿MNIST来制作这些数据，由于对藏文的不熟悉，一开始的工作十分艰难，直到取得了藏学研究院同学的帮助，才使得制作工作顺利完成。历时1个月，超过300次反复筛选，最终得到17768张高清藏文手写体数字图像，形成了TibetanMNIST数据集。”谈起那一个月的工作，团队成员纷纷表示“累并快乐着”。

　　藏文作为我国的少数民族文字之一，具有十分悠久的文化历史，而藏文文字独特的书写方式和构造，使得其极具美感！藏文主要有楷体和行体两种书法体，此次创新团队制作的TibetanMNIST正是行体藏文中的数字，如下图所示：

图为形体藏文、楷体藏文、拉丁文以及阿拉伯数字的对照表。图片由才让先木提供。

　　不忘初心，开源共享

　　“我们也没有想到这个项目会有那么多人关注，现在有很多人跟我们联系，表示对这个项目感兴趣。”袁明奇对自己团队取得的工作成果感到骄傲。“但是，这只是万里长征第一步，我们需要更多的图像数据，不断对算法进行优化，才能保证这个识别模型的精密程度。而且，现在只是藏文数字数据集方面有了进展，后期我们还要做藏文字母手写体数据集等一系列更加复杂的数据。距离实际的应用阶段，我们还有很多工作要做。”

图为团队主要负责人在谷歌开发者社区活动现场。图片由才让先木提供。

　　面对突如其来的关注，这群身怀人工智能梦想的95后学生团队，做出了一个让人惊叹的举动，“我们并没有想过利用这个项目挣钱，这不是我们的初衷，所以经过反复商议，我们决定将其完全开源，供所有的开发者自由使用，这样才能使其能发挥最大的价值！”

中央民大学生创新团队发布藏文手写体数字数据集

推荐阅读

青海自然资源博物馆赴黄南州开展生态研学活动

西藏大学第三届大学生职业规划大赛开幕

国家法官学院青海分院汉藏双语法官培训班开班

西藏拉萨市城关区2025年中小学生运动会开幕

青海师大班智达AI团队举行用户需求对接会

青海省海南州职校在国际大赛中斩获1银1铜

青海省海南州第二届中小学生作文大赛圆满举行

热门排行

文学推荐

奖恰：一个人（组诗）

黑墨水：萦绕在骨间的痛（组诗）

公保短篇小说：鹦鹉历险记（节选）

十明推荐

文殊开智偈（藏汉对照）

青海玉树然雅寺

六世贡唐仓大师的珍贵开示

影视推荐

万玛才旦：在西部建造“马孔多”的电影导演

格茸农布：藏族音乐人、弦子演奏家

万玛才旦：冷眼慈悲

相关推荐

北科大学子探拉萨：触摸藏戏脉搏寻解擦擦文化

西藏青年仁青次旺熟背医典前三部打破校纪录

西藏那曲市第三届高校毕业生创业大赛举行