(央视财经《天下财经(jīng)》)在(zài)日(rì)本,古(gǔ)代文献大量使(shǐ)用了草书和行(háng)书这样的手写体(tǐ)来(lái)书写日语假名和汉(hàn)字(zì),要看懂不容易。而AI技术,也就是人工智(zhì)能(néng)系统的开发能(néng)够帮助人们快(kuài)速识读。
包括手抄本和印刷本在(zài)内,日本流(liú)传至今(jīn)的古代手写(xiě)体(tǐ)文献据估(gū)算达到数亿件,但由于能够看懂手(shǒu)写体的专业人才极为(wéi)有限,所以导致大量史料尚未完成识读整理工作。最近(jìn),日本(běn)信息系统研究机构的一个研究小(xiǎo)组开发了一套人工智能系(xì)统,通过事先学习已(yǐ)由专家整理(lǐ)完成的44部文献,共计100万字(zì)的手(shǒu)写体写法,目前该(gāi)系(xì)统已基本(běn)实现了准(zhǔn)确高效地识(shí)读(dú)古代文献。
财经频道特约记者王(wáng)翔:我们已经把(bǎ)日本古典(diǎn)文学名著《源氏物语(yǔ)》扫描进了电脑,只需要按一下按钮,马上就会在屏幕上看到人工智能解读的(de)结果。像这(zhè)样一页(yè)手写体文献,如果(guǒ)由人来(lái)完成(chéng)的话,即便是最熟练的专(zhuān)家(jiā)也需要10分钟以上,不(bú)过人工智能只花了(le)不到3秒钟(zhōng)时(shí)间(jiān)。
该研(yán)究小组共有3名成员,其中一名(míng)是来自(zì)泰国的塔(tǎ)琳 卡(kǎ)努瓦。11年(nián)前,塔琳来东(dōng)京留学攻(gōng)读日本古(gǔ)典文(wén)学,经(jīng)常(cháng)需要阅读原始文献。连(lián)日本(běn)学生都难以(yǐ)辨识(shí)的古代手写体文(wén)字,对一名(míng)来自(zì)汉字文化圈以外的留学生来说,无异于天书。这(zhè)样的经(jīng)历(lì)促使塔琳一同(tóng)加入了这个研究小组,用半(bàn)年时间(jiān)开发了这套能(néng)够自(zì)动(dòng)识别手写体文献(xiàn)的人工智能系(xì)统(tǒng)。
日本信(xìn)息系统(tǒng)研究机(jī)构(gòu)研究员塔(tǎ)琳 卡(kǎ)努(nǔ)瓦:这套系统基本覆盖了(le)常用汉字,可以(yǐ)给(gěi)日本文学研究者提(tí)供方便。
据研究小(xiǎo)组负责人介绍,这套系统识别手写体文字的准确率已经(jīng)达到90%以上,研究(jiū)小组今后将继续扩大供(gòng)人工智能系统用于学习的数据库范围,并(bìng)改进程序算法(fǎ),来进一步提高系统识别文字的准确率(lǜ)。
日本信(xìn)息(xī)系统研究机构项目负责人北本朝展:这套系统(tǒng)也适用于汉语文献(xiàn),部分(fèn)文字的手写(xiě)体样(yàng)本太少,增加样本(běn)数量是今后改善(shàn)的重点。