solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索

冰糖葫芦

浏览: 293872 次

最近访客更多访客>>

dreamtan

a90120411

西瓜米粉

liquan2006

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

solr
mmseg
pinyinAnalyzer
lucene

solr mmseg pinyinAnalyzer 拼音检索

生产环境：

solr4.7.2

jdk1.6

lucene4.7.2

mmseg4j-core-1.10 (https://github.com/chenlb/mmseg4j-core.git)

mmseg-solr-2.0 (https://github.com/chenlb/mmseg4j-solr.git)

pinyin4j-2.5.0

pinyinAnalyzer (https://github.com/liangbaolin/pinyinAnalyzer.git)

说明：

由于mmseg4j本身对max-word模式下分词做了最小只能是2个词的限制，而作者又没有好的办法，所以我们针对自身应用做了一些调整
由于pinyinAnalyzer是针对solr5.0以上的版本，所以我们对其源码做了调整，将其整合到了4.7.2中；
由于pinyinAnalyzer中转换拼音简称的时候使用的是pinyin4j包中的getPinyinShortCollection方法，而该方法输出简拼时会多输出一个字母(如：“重庆”的输出为[cq,zq,c,z]，而其中的单个字母对索引影响极大)；因此将其替换为getPinyinShort方法(如：“重庆”的输出为cq,zq)

pinyinAnalyzer源码修改：(这里只列主要的PinyinTokenFilter.java)

需求：

需要搜索拼音能搜到对应企业，如搜索”xiaomi”可以查询出“小米通讯技术有限公司”
搜索“xiaomi”可以高亮汉字“小米”
可以使用拼音简称搜索，如搜索“cq”或“zq”可以搜到包含“重庆”的数据

方案分析：

开始考虑两种方案：

方案一：在应用中将中文搜索词转为拼音，对于关键词统一以英文或拼音的形式搜索

方案二：通过分词手段，在建立索引时直接将分词后的关键词对应的全拼（包括多音字全拼）、简拼(如cq,zq)一并写入索引；

查询时，只需要以同样规则将搜索词分词后再加入拼音，这样既可以搜索中文，又可以搜索拼音

说明：因为方案二的调整仅限于索引层面，而对应用本身毫无影响，所以最终选择方案二

前期含拼音分词测试：

1.分析词“重庆”、查询词“重庆”，分析结果如下：

2.分析词“重庆”、查询词“cq”，分析结果如下：

3.分析词“重庆”、查询词“chongqing”，分析结果如下：

solr配置：

1.将修改过源码的pinyinAnalyzer.jar、msseg4j-core.jar放于solr4.7.2对应lib目录

2.将pinyin4j-2.5.0.jar放于solr4.7.2对应目录下

3.配置schema.xml：

a.定义字段类型

</analyzer>

</analyzer>

</fieldType>

b.将对应field的type改为text_mmseg4j_pinyin

c.重启solr

修改后的源码及jar包见附件

pinyinAnalyzer.jar (30.4 KB)
下载次数: 112

pinyinAnalyzer.zip (48 KB)
下载次数: 94

查看图片附件

分享到：

Spark是否会替代Hadoop? | 影响IO密集型应用性能的因素

2016-03-14 13:02
浏览 3946
评论(4)
分类:互联网
查看更多

4 楼冰糖葫芦 2017-12-02

事无休写道

冰糖葫芦写道

事无休写道

首先谢谢博主的分享。现在我有两个问题：
第一：更新拼音索引是成功了，但是查询的时候，根据拼音查询查询不出结果。
第二：analysis中query的时候输入chongqingdami,index中是重庆大米，拼音并没有分词，所以索引不到。还请楼主帮忙解答，谢谢。

你好，
1.问题1不太清楚你意思
2.问题2私以为有几种解决方案：
   一：搜不到时给用户提示加空格，比如输入“chongqing dami”(不包含引号)
   二：使用EdgeNGramFilterFactory来对原词做切分后转拼音
   三：实现拼音分词
以上三种方法由易到难

当然@事无休有啥更好方式欢迎交流。

谢谢博主解答，十分感谢。
关于第二种或者第三种方法楼主是否有完整的例子供参考呢，我是刚接触solr，不清楚怎么实现。
关于第二种，jar包里面是存在EdgeNGramFilterFactory这个类的，是配置文件里面直接配置好就可以使用了么？还是说怎么去处理？还请麻烦楼主解答，如果有实例还请博主帮忙。

第二种实现说明：
1.schema定义如下：

<fieldType name="text_just_pinyin" class="solr.TextField" autoGeneratePhraseQueries="false" positionIncrementGap="100">
    <analyzer type="index">
	    <!--<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>-->
	    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
	    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
	    <filter class="utn.index.mmseg.solr.PinyinTokenFilterFactory"  minTermLength="2" outChinese="true" pingyinAll="true"/>
    </analyzer>
    <analyzer type="query">
	    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
	    <filter class="utn.index.mmseg.solr.PinyinTokenFilterFactory"  minTermLength="2" outChinese="true" pingyinAll="true"/>
   </analyzer>
</fieldType>

2.效果：
a.查询词效果图如下：

b.索引效果图如下：

注意：
红框中效果即为EdgeNGramFilterFactory效果
c.说明：
1）这种效果并不能替代中文分词，所以你需要为查询字段在schema.xml中创建两个字段(如商品名称对应到schema中分别为商品名称1、商品名称2，这两字段都存放的是商品名称，只不过采用不同的分词策略)
2）查询的时候只要同时去匹配两个字段就行(或者用copy将连个字段copy至同一个字段)

图已上传到相册了，如果不能看直接去我相册看吧

3 楼事无休 2017-11-27

冰糖葫芦写道

事无休写道

2 楼冰糖葫芦 2017-11-25

事无休写道

1 楼事无休 2017-11-24

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论