1. 无忧资讯 /
  2. 全球 /
  3. 古籍AI辨识 阿里巴巴达摩院准确率惊人 /

古籍AI辨识 阿里巴巴达摩院准确率惊人

阿里巴巴公益基金会、中国四川大学、加州大学柏克莱分校、中国国家图书馆及浙江图书馆等合作,研发古籍数位化,该系统已经能识别逾百本古籍,辨识度值准确率高达97.5%。(取材自北京日报)

古籍历史价值极高,为保存古文物之美,阿里巴巴达摩院、中国四川大学、加州大学柏克莱分校、中国国家图书馆及浙江图书馆等合作,研发古籍数位化,该系统已能识别逾百本古籍,辨识度准确率高达97.5%。

古籍数位化的方法主要分为两种:一、纯人工输入。主要靠人手,将内容全数输入至电脑中。二、电脑与人工相结合。由电脑利用光学字符辨识(Optical character recognition,OCR)技术识别一部分文字,电脑无法识别的文字,由专家人手录入,最终再由人工进行校对。

北京日报报导,中国古籍全部字符约有数十万,绝大部分不但不被现代字库收录,还会几乎找不到样本供人工智能(AI)学习。达摩院技术团队与四川大学专家,为了解决上述问题,合作研发一套全新的古籍识别系统。

新系统利用单字检测、无监督单字聚类、少样本分类、主动学习等有系统性的机器学习方法。并将会一边识别古籍,一边训练模型,以97.5%的准确率,完成约20万页古籍的整体识别。

目前该系统已经能识别逾百本古籍,并有覆盖逾3万字的古籍字典。随著古籍识别规模增加,机器会不断提升准确率和效率。与专家人工输入相比,将效率提升近30倍。藉“汉典重光”项目将古籍刻本数位化,供公众翻阅、检索。

阿里巴巴达摩院院长张建锋称,阿里计划将这套技术工具连同古籍数位化平台一并捐赠,交由权威公共机构长期运营。守护中华传世典籍,是科技工作者和文化工作者共同的使命。

达摩院成立于2017年10月,既有学术思维,也有产品思维和商业逻辑。阿里巴巴创办人马云曾对达摩院提出三个要求:活得要比阿里巴巴长、服务全世界至少20亿人口、必须面向未来,用科技解决未来的问题。

网友评论

网友评论仅供其表达个人看法,并不表明 51.CA 立场。
x
x