http://blog.sina.com.cn/s/blog_617032070100f0dw.html
http://psmt.sourceforge.net/
爱尔兰(Ireland),都柏林(Dublin),布利燕 麦克艾琳尼(Bryan McEleney),
PSMT 是用Prolog编写的一个不是很复杂的统计机器翻译(statistical machine translation)程序。作
为自由软件在Lesser GNU Public Licence (LGPL)协议下可用。统计机器翻译为例如Google所用,但
同时,这样的系统自由使用时,对于一个翻译系统,开放、无中介(直接)还是需要的。统计机器
翻译的很多研究在各个大学还在进行。然而,迄今为止,仅仅一个系统,Moses,仍然在开发中的
系统,承诺提供一系列完整的训练及作为开源软件的解码程序。
PSMT在实践中用的还不是很多。可以尝试在线演示。
系统需求(System Requirements)
从sourceforge下载
介绍(Description)
在线演示(Online Demo)
如何使用(How to use)
将来的工作(Future work)
链接(Links)
系统需求(System requirements)
PSMT是为SWI Prolog(是自由的)写的,因此只要在 SWI Prolog下应该可以运行,即GNU/Linux、
Macintosh 和 Windows下的都可以,尽管它只在GNU/Linux下进行了测试。
介绍(Description)
PSMT由3个主要部分组成。有一个语言模型学习器,采用目标语言中的例句,学习基于trigrams的语
言模型。有个字典学习器,从词的翻译学习词汇。最后,还有个搜索程序,用于前两个部分,把源语
句翻译成目标语言。
语言模型学习器(Language Model Learner)
语言模型学习器用标准技术目标语言例句中的三元组记录。当没有可利用的数据覆盖更高层ngram,
即使用时,为“backoff”,三元和unigrams,也被记录。
字典学习器(Dictionary Learner)
字典学习器使用自举技术学习字典。给出部分地被学习的字典,一组例句,那些句子最可能的词对被
选出记录到字典。起初配对是随机的,但最终的字典要设置正确的配对。
搜索程序(Search Program)
搜索程序用于目标语言中句子空间的定向(beam)搜索。
如何使用系统(How to use the system)
在"main.pl"文件中,有个谓词可以调用学习模块。必须提供语言对的目录名,训练数据来自这个目录。
在 "search_translation.pl" 文件中,用load_da
ta把数据加载到内存,然后对一串词使用搜索谓词。将 返回一个n-best的定向搜索。 用于对系统的快速测试。较大的12,000例子对的可以利用欧洲议会语料库(European parliament corpus)。 这个较大的数据集合会产生一个字典,有些叫人为难的是,搜索算法相当慢。就这份数据的语言模型 及字典的训练,结果很慢,翻译的也不好。 将来的工作(Future work ) 训练数据(Training Data) 系统可以是自由的,但是训练材料需要的并行语料库经常不是。目前,使用一套12,000 句子对的欧洲 议会语料库来训练字典。当前的系统没有使用其他的额外的数据来训练语言模型。OPUS项目在寻求 从取自web的并行文本为对齐数据,作为开源的材料。PSMT可以适用于处理OPUS数据。 效率(Efficiency) 系统完全是用Prolog编写的。这对于系统的学习部分很好,但是,翻译搜索需要实时。将来搜索算法 用C++再移植是可能的。 命名实体(Named Entities) 还没有提供对命名实体,如地名和人名的处理。 链接(Links) Moses系统目前仍在开发,希望他们会提供一系列完整的解码器(搜索算法)、翻译模型学习器(字 典学习器)和语言模型学习器。人们也对某些地方(OPUS)自由的并行语料库充满希望。 在维基百科(wikipedia)有个机器翻译软件的列表。 Freshmeat 是个自由软件索引。可以用来搜索机器翻译(machine translation)项目。 类似地可以在sourceforg运行搜索。 |