Sphinx+Scws 搭建千万级准实时搜索应用场景详解
创始人
2024-05-26 01:38:41
0

目标:
一、搭建准确的千万级数据库的准实时搜索(见详情)
二、实现词语高亮(客户端JS渲染,服务器端渲染,详见7.3)
三、实现搜索联想(输入框onchange,ajax请求搜索,取10条在层上展示方可)
四、实现词库管理(仅需管理scws下的自定义词库dd.txt即可)
五、实现全文搜索(提供了两种方案,详见8)

案例:
本文第五部分,针对实际应用场景,典型案例分析。

软件:
sphinx: sphinx-2.0.2-beta
scws: scws-1.2.0
===========================================================================

一、Sphinx安装
1、安装

# ./configure --prefix=/opt/server/sphinx --with-mysql=/opt/server/mysql # make # make install

1

2

3

# ./configure --prefix=/opt/server/sphinx --with-mysql=/opt/server/mysql

# make

# make install

2、配置
见sphinx.conf
详见下文,多索引增量索引方案

3、php 扩展
性能方面,扩展和直接使用API文件,差别不大;可以做选择;都在源码API中;
个人建议使用API文件,系统更稳定

3.1 sphinx客户端libsphinxclient

# ./configure --prefix=/opt/server/libsphinxclient # make # make install

1

2

3

# ./configure --prefix=/opt/server/libsphinxclient

# make

# make install

3.2 扩展
下载 http://pecl.php.net/package/sphinx

# /opt/server/php/bin/phpize./configure --with-sphinx=/opt/server/libsphinxclient --with-php-config=/opt/server/php/bin/php-config # make # make install 查看 # /opt/server/php/bin/php -m |grep sphinx

1

2

3

4

5

# /opt/server/php/bin/phpize./configure --with-sphinx=/opt/server/libsphinxclient --with-php-config=/opt/server/php/bin/php-config

# make

# make install

查看

# /opt/server/php/bin/php -m |grep sphinx

使用手册
http://docs.php.net/manual/zh/book.sphinx.php

4、索引 启动服务

# /opt/server/sphinx/bin/indexer --all # /opt/server/sphinx/bin/searchd

1

2

# /opt/server/sphinx/bin/indexer --all

# /opt/server/sphinx/bin/searchd

二、php 分词 scws
官网 http://www.ftphp.com/scws/
1、 安装

# ./configure --prefix=/opt/server/scws # make # make install

1

2

3

# ./configure --prefix=/opt/server/scws

# make

# make install

2、 词库
scws-dict-chs-utf8.tar.bz2 解压放入 /opt/server/scws/etc
词库 dict.utf-8.xdb
规则 rules.utf-8.ini

3、 php 扩展
源码在phpext下

# /opt/server/php/bin/phpize./configure --with-scws=/opt/server/scws --with-php-config=/opt/server/php/bin/php-config # make # make install

1

2

3

# /opt/server/php/bin/phpize./configure --with-scws=/opt/server/scws --with-php-config=/opt/server/php/bin/php-config

# make

# make install

# vi php.ini [scws] extension = scws.so scws.default.charset = utf-8 scws.default.fpath = /opt/server/scws/etc 查看 # /opt/server/php/bin/php -m |grep scws

1

2

3

4

5

6

7

# vi php.ini

[scws]

extension = scws.so

scws.default.charset = utf-8

scws.default.fpath = /opt/server/scws/etc

查看

# /opt/server/php/bin/php -m |grep scws

4、 分词测试
http://www.ftphp.com/scws/docs.php
详见测试文件 test_all.php

三、 索引

//索引某个索引 # /opt/server/sphinx/bin/indexer test1 //searchd 索引某个索引 # /opt/server/sphinx/bin/indexer test1 --rotate //指定索引搜索 # /opt/server/sphinx/bin/indexer -i test1 '逗她男'

1

2

3

4

5

6

//索引某个索引

# /opt/server/sphinx/bin/indexer test1

//searchd 索引某个索引

# /opt/server/sphinx/bin/indexer test1 --rotate

//指定索引搜索

# /opt/server/sphinx/bin/indexer -i test1 '逗她男'

1、 增量索引方案

//创建表记录偏移 CREATE TABLE IF NOT EXISTS `search_counter` ( `counterid` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '统计标示', `max_doc_id` int(11) unsigned NOT NULL COMMENT '已统计数', PRIMARY KEY (`counterid`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; //增量索引 # /opt/server/sphinx/bin/indexer test1stemmed --rotate //合并索引 # /opt/server/sphinx/bin/indexer --merge test1 test1stemmed --rotate

1

2

3

4

5

6

7

8

9

10

//创建表记录偏移

CREATE TABLE IF NOT EXISTS `search_counter` (

`counterid` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '统计标示',

`max_doc_id` int(11) unsigned NOT NULL COMMENT '已统计数',

PRIMARY KEY (`counterid`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

//增量索引

# /opt/server/sphinx/bin/indexer test1stemmed --rotate

//合并索引

# /opt/server/sphinx/bin/indexer --merge test1 test1stemmed --rotate

索引策略
1、搜索时,同时从主索引和增量索引取数据
2、每5分钟,运行一次增量索引;满足新数据搜索需求
3、每晚,运行一次主索引,同时会更新索引标示;再运行增量索引,实质为清空增量索引,避免与主索引重复索引
4、好处:避免开合并索引,合并索引效率较差
5、如数据量特别大,可考虑合并索引的方案

索引策略shell

//add.sh #!/bin/sh /opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log //all.sh #!/bin/sh /opt/server/sphinx/bin/indexer test1 --rotate >> /opt/server/sphinx/var/log/all.sh.log /opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log

1

2

3

4

5

6

7

//add.sh

#!/bin/sh

/opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log

//all.sh

#!/bin/sh

/opt/server/sphinx/bin/indexer test1 --rotate >> /opt/server/sphinx/var/log/all.sh.log

/opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log

四、 多个表独立索引方案
场景:如有用户搜索、商品搜索等多个索引需求
策略:配置一个多索引方案,每个表单独建立索引
前端根据不同类型选择不同的查询索引;全部,即选择所有索引
===========================================================================

 

相关内容

热门资讯

退役军人事务部等6部门部署开展... 新华社北京4月11日电 近日,退役军人事务部会同财政部、人力资源社会保障部、国务院国资委、国家税务总...
2025世界电信和信息社会日大... 中新网北京4月11日电 (记者 刘育英)记者从4月11日在北京举办的发布会获悉,“2025世界电信和...
众鑫股份(603091.SH)... 格隆汇4月11日丨众鑫股份(603091.SH)公布2024年年度报告,报告期实现营业收入15.46...
人民同泰十大流通股东格局生变:... 4月11日消息,人民同泰公告显示,截止2024年12月31日,相较于上一报告期,十大流通股东发生了以...
国家金融监督管理总局关于印发《... 国家金融监督管理总局关于印发《保险集团并表监督管理办法》的通知金规〔2025〕11号各金融监管局,各...
同比增长20.5% 一季度鞍山... 转自:中国发展网中国发展网讯 记者施文郁报道  近日,从鞍山市科技局获悉,今年以来,鞍山市深入实施创...
盛视科技:2024年净利润同比... 格隆汇4月11日丨盛视科技(002990.SZ)公布2024年年度报告,报告期内,公司实现营业收入1...
六小龄童!传来最新消息 4月10日,绍兴文理学院举行六小龄童荣誉院长聘任仪式,聘任著名表演艺术家六小龄童(章金莱)先生为蔡元...
李姓股民向汇金科技发起索赔 徐...   受损股民可至Hehson股民维权平台登记该公司维权:http://wq.finance.sina...
福日电子2024年年报解读:经... 福建福日电子股份有限公司(以下简称“福日电子”)近日发布2024年年度报告,各项财务数据变动引发关注...
北京大风夹带雷阵雨 转自:京报网_北京日报官方网站 【#北京大风夹带雷阵雨#...
吉林省委巡视组原副组长胡延生被... 转自:上观新闻中央纪委国家监委网站讯据吉林省纪委监委消息:吉林省委巡视组原副组长、巡视专员胡延生涉嫌...
郑州启动Ⅲ级应急响应! 本文来自微信公众号“大象新闻”郑州市安全生产和防灾减灾救灾委员会办公室消息,据郑州市气象局重要天气预...
山东省任前公示:多位厅级干部拟... 转自:北京日报客户端4月11日,中共山东省委组织部干部任前公示公告。根据《党政领导干部选拔任用工作条...
虞书欣发日常视频,被发现与王鹤... 4月11日#虞书欣王鹤棣疑似坐同款位置#登顶热搜4月10日,女演员虞书欣在社交平台发文分享日常,有眼...
11家机构受让高测股份4.71... 4月11日,高测股份(688556)发布公告,该公司控股股东张顼通过询价转让方式减持公司2574万股...
【财经分析】机构建议把握4月配... 转自:新华财经新华财经上海4月11日电(记者 杨溢仁)本周,在利率债走强的同时,信用债亦表现不俗,收...
中金公司投资银行部董事总经理王... 近期,证监会发布《上市公司监管指引第 11 号——上市公司破产重整相关事项》(以下简称“《指引》”)...
沛然环保:司徒智恒已获委任为审... 沛然环保(08320)发布公告,林健枝考虑到已于董事会任职近九年,是时候卸任,故提...沛然环保(0...
曹操出行发布智慧巡网融合3.0... 来源:环球网 【环球网科技综合报道】4月11日消息,曹操出行对外发布智慧巡网融合3.0升级方案,推动...