关键词不能为空
×

留学日语

日语学习 > 留学日语 > 日语分词器的推荐与特别

日语分词器的推荐与特别

日语培训
对于搜索引擎来说,分词器的质量是对搜索结果影响最大的一个环节,日语分词(在介绍分词器之前,有必要先介绍词典,因为词典是分词的基础,词典的质量直接决定了分词器的质量

对于搜索引擎来说,分词器的效率是对搜索结果影响最大的一个环节,日语分词(形態素解析)经过多年的演变也有了一些特别成熟的分词系统,下面介绍并特别现在主流的开源日语分词系统。

在介绍分词器之前,有必要先推荐词典,因为词典是短语的基础,词典的效率直接决定了分词器的效率,而短语系统外部引入什么词典,也是对词组器效果评估的重要参考。

说到日文词典,可能首先看到是著名的商业词典,如「広辞苑」、「大辞林」等,然而因为商业词典等存在版权跟授权原因,一般又能够用来开源项目。其次这类商业词典大约以体裁解释为主,而作为动词来说,词汇的释义并不是最重要的,而是名词、词根等,所以也并不是所有的商业词典却适用于分词。

因此开源项目通常又推出具有开源许可证的免费词典,目前使用非常多的有:

可以利用这个网站非常几个日语分词词典的差异。

在对日语分词词典有了肯定知道后,下面逐一介绍日语分词器

MeCab是京都大学信息专业和日本电信电话株式会社通讯研究所共同研究的项目,模型采用 CRF(条件随机场) ,基于 C++实现,主要作者是「工藤 拓」,是中国自然语言研究行业大佬,就职于 Google 负责日语输入法相关项目。

MeCab 主要原因有:

MeCab 无论在学术方面,还是工程方面,都是非常优秀的,可以看见任何这些日语分词相关的项目,或多或少都得到了 MeCab 的妨碍或使用了 MeCab 的方法、词典等。

Kuromoji由位于东京的 Atilika 公司研发,基于 Java 实现。目前尚未捐赠让了 Apache 软件基金会,并内置在 Lucene 和 Solr 中成为默认的日文分词器。

Kuromoji 基本支持前文提到的全部词典,如果已选定的话,默认使用 ipadic。

Kuromoji 的分词系统基于Viterbi Algorithm,因此可以看做是采用 HMM (隐马尔科夫模型) 的分词。

由于 Atilika 是一个纯商业企业,因此 Kuromoji 也很偏向对于日语分词的项目推进日语在线分词,作为 Java 开源项目,与主流的 Java 搜索项目如 Lucene,Elastic 有很大的匹配,工程方面非常完善,容易上手。而在学术方面的贡献就相当少了。

Juman和Juman++都是京都大学信息专业在 NLP 方面的研究成果,分词模型使用了 RNNLM(递归神经网络语言建模)日语在线分词,即基于了深度学习技术。开发基于 C++ 实现,Github 页面也给出了现在训练好的模型。

Juman 除了推出自己整理的词典外,还借助了源于 Wikipedia 的词汇。 Juman 的输出不仅标准的分词结果外,还可以输出词汇的归类,从而可以对词语作更好的标签跟归类。

不过因为文档较少,想要使用 Juman 训练自己的模型以及替换自己的词典还是非常困难的,整体是一个比较偏学术的项目。

KyTea是由卡内基·梅隆大学的 Graham Neubig 主导研究的工程,实现语言是 C++成人日语口语班, 算法方面整合了 SVM 和逻辑回归等多个建模,默认使用的词典是 UniDic。

作者的方向偏学术,因此 KyTea 更多也只有成为研究成果的展现,版本已经停止升级,实际运用的项目也较少。

Sudachi由 Works Applications 公司研发,和 Kuromoji 非常类似,都是 Java 实现的商业开源项目合肥少儿日语培训,对比 Kuromoji, Sudachi 可以调节的参数更细致一些,默认词典同时包含了 UniDic 和 NEologd,算法使用的应当是 Lattice LSTM。

项目开源仅 2 年,更新维护非常细心,官方提供了 Elasticsearch 插件,对开发者比较友好。

nagisa是 NTT DOCOMO 的「池田 大志」 个人开发的采用 RNN 的项目,训练好的建模可以直接选用 pip 安装后选用,不过因为是 Python 开发,运行成本里就远远比不了此类的 C++项目了。

nagisa 整体代码较少,并给出了清晰的练习代码跟语料库,如果是以学习日语 NLP 为原因的话,是一个不错的选择。

将左右全部推荐的日语分词器作一个横向相当,可以按照实际应该自行选取。

算法/模型构建语言词典处理速度ES 插件Lisence

MeCab

可选

最高

GPL/LGPL/BSD

Kuromoji

Viterbi

可选, 默认 ipadic

内置

Apache License v2.0

Juman++

RNNLM

自制

Apache License v2.0

KyTea

SVM 等

UniDic

Apache License v2.0

Sudachi

Lattice LSTM

UniDic + NEologd

Apache License v2.0

nagisa

Bi-LSTM

Python

ipadic

以上就是本文的所有内容,希望对你们的学习有所帮助,也期望大家多多支持 码农网

相关阅读

日语学习

关键词不能为空
免费领取1000元学习大礼包(剩67份)
免费领取1000元学习大礼包(剩 61份)
手机号不能为空