Prolog统计机器翻译PSTM【译】

news/2024/7/10 23:31:48 标签: 语言, translation, dictionary, system, search, 算法

http://blog.sina.com.cn/s/blog_617032070100f0dw.html

 

http://psmt.sourceforge.net/

  爱尔兰(Ireland),都柏林(Dublin),布利燕 麦克艾琳尼(Bryan McEleney),

PSMT 是用Prolog编写的一个不是很复杂的统计机器翻译(statistical machine translation)程序。作
为自由软件在Lesser GNU Public Licence (LGPL)协议下可用。统计机器翻译为例如Google所用,但
同时,这样的系统自由使用时,对于一个翻译系统,开放、无中介(直接)还是需要的。统计机器
翻译的很多研究在各个大学还在进行。然而,迄今为止,仅仅一个系统,Moses,仍然在开发中的
系统,承诺提供一系列完整的训练及作为开源软件的解码程序。

PSMT在实践中用的还不是很多。可以尝试在线演示

系统需求(System Requirements)
从sourceforge下载
介绍(Description)
在线演示(Online Demo)
如何使用(How to use)
将来的工作(Future work)
链接(Links)


系统需求(System requirements)

PSMT是为SWI Prolog(是自由的)写的,因此只要在 SWI Prolog下应该可以运行,即GNU/Linux、
Macintosh 和 Windows下的都可以,尽管它只在GNU/Linux下进行了测试。


介绍(Description)

PSMT由3个主要部分组成。有一个语言模型学习器,采用目标语言中的例句,学习基于trigrams的语
言模型。有个字典学习器,从词的翻译学习词汇。最后,还有个搜索程序,用于前两个部分,把源语
句翻译成目标语言

语言模型学习器(Language Model Learner)
语言模型学习器用标准技术目标语言例句中的三元组记录。当没有可利用的数据覆盖更高层ngram,
即使用时,为“backoff”,三元和unigrams,也被记录。

字典学习器(Dictionary Learner)
字典学习器使用自举技术学习字典。给出部分地被学习的字典,一组例句,那些句子最可能的词对被
选出记录到字典。起初配对是随机的,但最终的字典要设置正确的配对。

搜索程序(Search Program)
搜索程序用于目标语言中句子空间的定向(beam)搜索。


 如何使用系统(How to use the system

在"main.pl"文件中,有个谓词可以调用学习模块。必须提供语言对的目录名,训练数据来自这个目录。
在 "search_translation.pl" 文件中,用load_da

ta把数据加载到内存,然后对一串词使用搜索谓词。将
返回一个n-best的定向搜索。

用于对系统的快速测试。较大的12,000例子对的可以利用欧洲议会语料库(European parliament corpus)
这个较大的数据集合会产生一个字典,有些叫人为难的是,搜索算法相当慢。就这份数据的语言模型
及字典的训练,结果很慢,翻译的也不好。

将来的工作(Future work

训练数据(Training Data)
系统可以是自由的,但是训练材料需要的并行语料库经常不是。目前,使用一套12,000 句子对的欧洲
议会语料库来训练字典。当前的系统没有使用其他的额外的数据来训练语言模型。OPUS项目在寻求
从取自web的并行文本为对齐数据,作为开源的材料。PSMT可以适用于处理OPUS数据。

效率(Efficiency)
系统完全是用Prolog编写的。这对于系统的学习部分很好,但是,翻译搜索需要实时。将来搜索算法
用C++再移植是可能的。

命名实体(Named Entities)
还没有提供对命名实体,如地名和人名的处理。


链接(Links)

Moses系统目前仍在开发,希望他们会提供一系列完整的解码器(搜索算法)、翻译模型学习器(字
典学习器)和语言模型学习器。人们也对某些地方(OPUS)自由的并行语料库充满希望。

维基百科(wikipedia)有个机器翻译软件的列表。

Freshmeat 是个自由软件索引。可以用来搜索机器翻译(machine translation)项目。

类似地可以在sourceforg运行搜索。


http://www.niftyadmin.cn/n/1605380.html

相关文章

如何实现数据库跨地域容灾自愈?新上线关系型数据库RDS热活实例组帮你轻松搞定...

什么是云计算的核心业务?必须是数据库,因为它的性能直接关系到系统执行的效率和稳定性,更与大多数业务直接相关。为此,百度智能云在关系型数据库RDS(Relational Database Service)产品中,已经实…

百度智能云 x 掌通家园 | 用科技点亮“家园共育”

小孩吃得饱不饱,乖不乖?幼儿园的老师有没有对小孩不耐烦?孩子一入园,新手爸妈的问题就特别多。别抓狂,掌通家园联手百度智能云,全面赋能“家园共育”,让孩子健康、快乐成长。“家园共育”&#…

IDC发布2019Q1公有云报告:百度智能云增速最快,IaaS+PaaS保持前五

AI加持下的百度智能云延续着自己强劲增长势头,在中国公有云IaaSPaaS市场排名继续保持前五,IaaS市场份额获得大幅提升,跻身前五名。8月2日,全球咨询机构IDC发布《中国公有云服务市场2019第一季度跟踪》报告,显示百度智能…

品尝 GNU Prolog (1)

http://blog.sina.com.cn/s/blog_494e45fe0100lh1w.html Prolog是种逻辑编程语言。为什么这样说呢?别的语言,C, C, Basic, Java, ... 不也是用逻辑编程吗?Prolog 和它们还真不一样。纯粹的、原始的 Prolog 程序体由“事实”和“规则”构成。“…

数据协同有危险?企业协作“保护伞”,Quorum联盟链来了!

业内都知道区块链是未来的一个方向,但在企业协作过程中,行为数据的完全同步及曝光十分危险。如何在保护隐私行为的前提下,完成协作,是业内共同探索的热点方向。这不,百度智能云最新上线的BBE Quorum联盟链将是一个良好…

刷脸支付市场未来想象空间进一步增加

硬件推广到能力支持,只是整个刷脸支付产业中的一小部分而已。市场激战背后,还有产业链一众上下游公司的跑步入场。根据前瞻产业研究院人脸识别行业发展现状报告显示,到2022年,全球人脸识别市场规模将达75.95亿美元,增速…

百度智能云 x 智慧流 | 用科技成就中小学生英语学习

近年来,云计算产业发展迅猛,企业上云早不是新鲜事。除了帮助金融、政府和互联网行业智能升级转型之外,百度智能云还在教育行业深耕细作。其中,与数字教辅行业的先行者智慧流的合作成果显著,不断用技术为1.8亿中小学生提…

刷脸支付新事物刚出来的时候入局比较好

手机流量有限,电量不足双手无法空闲。这些问题2019年已经得到了解决,刷脸支付成为了移动金融业新的焦点,这离不开代理商的卖力推广,刷脸支付代理成为大多数创业者的选择。刷脸支付代理成为创业热门。今天,就为大家介绍…