Rime中文输入法大模型语法包配置方法

Rime中文输入法大模型语法包配置方法

作为拼音输入法的用户,Linux下的中文输入一直都是一个痛点。之前时不时听人推荐Rime,中州韻輸入法引擎,据说是Linux下最好用的中文输入法引擎。装上之后用了两年。感觉确实比其它屎一样的输入法好用一些,但还是比不上Windows下可以整句输入,识别率超高的几种商业输入法。比如谷歌拼音,搜狗拼音,微信输入法,甚至Windows 自带的微软拼音都吊打它。如果用中文写个文章聊个天,还是要切换到Windows下才更有效率。

直到我前几天刷YouTube,看到一个视频介绍雾凇拼音。因为Rime是一个引擎,有基于它的各种输入法的具体实现。各种不同作者做的拼音,五笔,双拼,还有各种我没听过的奇怪输入法。雾凇拼音就是其中的一个拼音输入法。

雾凇拼音本身的默认配置又好了一些,但还是不够好。然而信息的获取往往就是这样,一个关键词,打开了一扇对的门。终于柳暗花明 带我来到了正确的方向。

接下来我了解到了基于雾凇拼音修改出来的白霜拼音,然后又通过这个关键词,找到了一些文章,了解到了万象拼音。

终于,万象拼音有了相对丰富的文档。而一路走来的其他项目,从Rime引擎本身,到雾凇、白霜,文档都有着大部分开源软件的通病。就是作者自己做出来,运行起来了,文档就懒得写了,能让你编译、安装、运行起来就不错了。更多的细节根本懒得给你写。或者东一点,西一点,懒得给你系统的归纳到一起。

有了万象拼音的文档,我终于在漫长的盲人摸象的过程中,更了解了Rime的全貌。

原来,Rime是支持语法模型的。它是基于AI模型,把输入的句子转化成有意义的文字。而不是传统的基于字典和词频的简单查表。它是由一个叫做librime-octagram的插件实现。这个插件在Windows版里默认就已经包含。但是在Linux下要单独安装。这个插件安装之后,再把语言模型配置好,结果就完全不一样了。

比如这个是万象拼音给的基准测试:

以下是没有配置好语言模型的整句输入结果:

  1. 充满激情的跋涉远比到达目的地更能给人带来乐趣
  2. 苍茫的填鸭式我的爱绵延得清山脚下花盛开
  3. 速配勾勒出清华笔锋浓转淡评审描绘德牧单一如你出装
  4. 鹤岗教的网友大肌霸王者完了一起去华山
  5. 三天两夜四海八荒怎能比五湖四海的你饿了吗
  6. 你是优势有什么事吗

以下是白霜拼音输入法搭配万象语言模型的输入结果:

  1. 充满激情的跋涉远比到达目的地更能给人带来乐趣
  2. 苍茫的天涯是我的爱绵延的青山脚下花盛开
  3. 速配勾勒出青花笔锋浓转淡瓶身描绘的牡丹一如你出装
  4. 和刚交的网友打几把王者完了一起去华山
  5. 三天两夜四海八荒怎能比五湖四海的你饿了吗
  6. 你室友是有什么事吗

除了第三句话和基准测试有一点出入,其他都和期待结果完全一致。

这一点出入可能是因为万象拼音是基于拼音加声调的输入法。打完拼音之后输入数字1234会输入声调,而不是选择待选项。这让我很不习惯。所以我最后用了它的语言模型,但选择了白霜拼音输入法。因为输入缺少了声调的信息,所以结果有些不同很正常。也可能,是万象拼音的字典的区别。

总之很明显,有了语言模型的整句输入更智能更准确。基准测试里的第三句本身就狗屁不通不知道它在说什么。而有意义的句子识别率都很好。感觉完全不比搜狗那些商业输入法差。

于是我把Windows上的商业输入法也都删了。因为商业输入法会收集你的输入用作数据收集和训练AI模型。收集数据和训练模型一般来说也还好,但就怕你输入敏感信息比如密码的时候忘记关输入法。它就把你的密码和敏感信息也收集了。

具体的安装步骤就不需要讲了。这些在各自项目里都说的很清楚。总结一下重点吧。

Rime

Windows下没什么需要注意的。Linux下无论是安装fcitx5还是ibus版本的Rime,记得一定要装librime-octagram,我浪费了好几天在这上面。因为不知道模型是基于插件实现的,也不知道linux下默认不包含,一直不明白为什么Linux下输出结果就是不对。

RIME | 中州韻輸入法引擎

输入法

输入法我选择的是白霜,它是在雾凇拼音的基础上做了一些清理工作,删除了一些极少用到的词什么的。这两个都可以。万象因为声调输入的关系我实在是用不惯。具体你可以自己都试试看。安装方法都是一样的。在github项目页右手边的Releases连接里,下载最新的发行文件压缩包,再解压到Rime的用户目录里就可以了。用户目录的具体位置参考白霜拼音的安装说明。实验阶段,为排除相互干扰,换输入法最快的方法是把Rime用户目录里的文件全部删除,然后再把新的解压进去,再把用户登出,登入。如果是Windows下的话,删除目录会说文件正在被使用,需要打开任务管理器,先把小狼毫算法服务杀死。

白霜拼音雾凇拼音万象拼音

语法模型

目前我找到最好的模型是万象拼音提供的模型。模型文件名是"wanxiang-lts-zh-hans.gram"。下载之后,也和输入法一起放到Rime用户目录里。如果输入法是万象就直接用就可以了。如果不是的话,拿白霜举例,则创建一个rime_frost.custom.yaml文件,然后编辑文件内容如下:

patch:
  grammar:
    language: wanxiang-lts-zh-hans
    collocation_max_length: 8
    collocation_min_length: 2
    collocation_penalty: -16
    non_collocation_penalty: -8
    weak_collocation_penalty: -100
    rear_penalty: -20

以上是万象拼音里对模型的默认设置,或者以下是白霜拼音给的搭配模型的参数:

patch:
  grammar:
    language: wanxiang-lts-zh-hans
    collocation_max_length: 5
    collocation_min_length: 2
    non_collocation_penalty: -4
  translator/contextual_suggestions: true
  translator/max_homophones: 7
  translator/max_homographs: 7

具体哪个好用可以自己试试。

试验期间,修改参数,或者更换模型之后,建议删除rime_frost.userdb文件夹。因为里面有用户输入记录。比如说,如果你在没有配置模型的时候输入了“苍茫的填鸭式我的爱绵延得清山脚下花盛开”,那么模型配置好之后,因为它在你的历史记录里,所以它仍然会出现在你的首选项。你可能会以为模型没有配置成功。

另外,这些输入法都是套装的包。比如白霜下载解压之后,它除了提供白霜拼音输入法,还提供五笔,6种不同版本的双拼等。每个都有不同的名字。而rime_frost就只对应白霜拼音输入法。rime_frost.custom.yaml只对白霜拼音输入法进行定制化配置,不包含其他的五笔,双拼等。比如如果你要配置“白霜智能ABC双拼”使用智能模型,你要创建rime_frost_double_pinyin_abc.custom.yaml才行。

具体文件名你可以在Rime用户目录里查看所有的xxxxx.schema.yaml,有几种输入法就有几个.schema.yaml文件。xxxxx.schema.yaml是xxxxx这个输入法的配置文件,xxxxx.custom.yaml则是用户自己的定制化配置。

编辑于 2026-06-03 · 著作权归作者所有