(央视(shì)财经(jīng)《天下财经(jīng)》)在日本(běn),古(gǔ)代文献(xiàn)大量使用了草书(shū)和行书(shū)这样(yàng)的手(shǒu)写体来书(shū)写日语(yǔ)假(jiǎ)名和汉字,要(yào)看懂不容(róng)易(yì)。而AI技术,也(yě)就是人(rén)工智(zhì)能系统的开发能够帮助(zhù)人们快速识(shí)读(dú)。
包括手抄本和印刷本在内,日本流(liú)传至今的古代手写体文献据估算达到数亿件,但由(yóu)于能够看懂手写体的专业人才极为有限(xiàn),所(suǒ)以(yǐ)导致大(dà)量史料尚未(wèi)完成识读整理工作。最近(jìn),日本信息系(xì)统研(yán)究机构的一(yī)个研究小组开发了一套人工智能系统(tǒng),通过事(shì)先(xiān)学习已由专家整理完成的44部文献(xiàn),共(gòng)计100万字的手(shǒu)写体(tǐ)写法,目前该系统已基本实现了准确高效地识(shí)读古代文献。
财(cái)经频道特约记者王翔:我们已经把日本古典文学名著《源氏物语》扫描(miáo)进了电脑,只(zhī)需要按一下按钮,马(mǎ)上就会在屏幕上(shàng)看到人工智能解读的结果。像这样一页(yè)手写(xiě)体文献,如果由人(rén)来(lái)完成的话,即便是最熟练的专(zhuān)家也需要10分钟(zhōng)以上,不过人工智能只(zhī)花了(le)不到3秒钟(zhōng)时间。
该研究小组(zǔ)共有3名成(chéng)员,其中一名是来自泰(tài)国的塔(tǎ)琳 卡努(nǔ)瓦。11年前,塔琳来东京留学攻读日本古典文学,经常(cháng)需要阅读原始文献。连日(rì)本学生(shēng)都难以辨识的古代手写体文(wén)字,对(duì)一名来自汉(hàn)字文化(huà)圈以外(wài)的(de)留学生来说(shuō),无异于天书。这样的经历促使塔琳一同加入了这个研究小组(zǔ),用半年时(shí)间开(kāi)发了(le)这套能够自(zì)动识别手写体文献的人(rén)工智能系统(tǒng)。
日(rì)本(běn)信息系统研究机构研究(jiū)员塔琳 卡努瓦:这(zhè)套系(xì)统基(jī)本覆盖(gài)了(le)常用汉字,可(kě)以(yǐ)给日本文(wén)学(xué)研究(jiū)者提供方便。
据研究小组(zǔ)负责人(rén)介(jiè)绍,这套系统(tǒng)识(shí)别(bié)手写体文字的准确率(lǜ)已经达到90%以上,研究小组今后将继续扩大供人工智能系统用(yòng)于学习的数(shù)据库范(fàn)围,并改进程序算法,来进一步提(tí)高系统识别文字的准确率。
日本信息系统(tǒng)研究(jiū)机构(gòu)项目负责人北本朝展:这套系(xì)统也适用于汉(hàn)语文献,部分文字的手写体样本太少,增加样本数(shù)量是今后(hòu)改(gǎi)善的重点。