Sphinx+Scws 搭建千万级准实时搜索应用场景详解
创始人
2024-05-26 01:38:41
0

目标:
一、搭建准确的千万级数据库的准实时搜索(见详情)
二、实现词语高亮(客户端JS渲染,服务器端渲染,详见7.3)
三、实现搜索联想(输入框onchange,ajax请求搜索,取10条在层上展示方可)
四、实现词库管理(仅需管理scws下的自定义词库dd.txt即可)
五、实现全文搜索(提供了两种方案,详见8)

案例:
本文第五部分,针对实际应用场景,典型案例分析。

软件:
sphinx: sphinx-2.0.2-beta
scws: scws-1.2.0
===========================================================================

一、Sphinx安装
1、安装

# ./configure --prefix=/opt/server/sphinx --with-mysql=/opt/server/mysql # make # make install

1

2

3

# ./configure --prefix=/opt/server/sphinx --with-mysql=/opt/server/mysql

# make

# make install

2、配置
见sphinx.conf
详见下文,多索引增量索引方案

3、php 扩展
性能方面,扩展和直接使用API文件,差别不大;可以做选择;都在源码API中;
个人建议使用API文件,系统更稳定

3.1 sphinx客户端libsphinxclient

# ./configure --prefix=/opt/server/libsphinxclient # make # make install

1

2

3

# ./configure --prefix=/opt/server/libsphinxclient

# make

# make install

3.2 扩展
下载 http://pecl.php.net/package/sphinx

# /opt/server/php/bin/phpize./configure --with-sphinx=/opt/server/libsphinxclient --with-php-config=/opt/server/php/bin/php-config # make # make install 查看 # /opt/server/php/bin/php -m |grep sphinx

1

2

3

4

5

# /opt/server/php/bin/phpize./configure --with-sphinx=/opt/server/libsphinxclient --with-php-config=/opt/server/php/bin/php-config

# make

# make install

查看

# /opt/server/php/bin/php -m |grep sphinx

使用手册
http://docs.php.net/manual/zh/book.sphinx.php

4、索引 启动服务

# /opt/server/sphinx/bin/indexer --all # /opt/server/sphinx/bin/searchd

1

2

# /opt/server/sphinx/bin/indexer --all

# /opt/server/sphinx/bin/searchd

二、php 分词 scws
官网 http://www.ftphp.com/scws/
1、 安装

# ./configure --prefix=/opt/server/scws # make # make install

1

2

3

# ./configure --prefix=/opt/server/scws

# make

# make install

2、 词库
scws-dict-chs-utf8.tar.bz2 解压放入 /opt/server/scws/etc
词库 dict.utf-8.xdb
规则 rules.utf-8.ini

3、 php 扩展
源码在phpext下

# /opt/server/php/bin/phpize./configure --with-scws=/opt/server/scws --with-php-config=/opt/server/php/bin/php-config # make # make install

1

2

3

# /opt/server/php/bin/phpize./configure --with-scws=/opt/server/scws --with-php-config=/opt/server/php/bin/php-config

# make

# make install

# vi php.ini [scws] extension = scws.so scws.default.charset = utf-8 scws.default.fpath = /opt/server/scws/etc 查看 # /opt/server/php/bin/php -m |grep scws

1

2

3

4

5

6

7

# vi php.ini

[scws]

extension = scws.so

scws.default.charset = utf-8

scws.default.fpath = /opt/server/scws/etc

查看

# /opt/server/php/bin/php -m |grep scws

4、 分词测试
http://www.ftphp.com/scws/docs.php
详见测试文件 test_all.php

三、 索引

//索引某个索引 # /opt/server/sphinx/bin/indexer test1 //searchd 索引某个索引 # /opt/server/sphinx/bin/indexer test1 --rotate //指定索引搜索 # /opt/server/sphinx/bin/indexer -i test1 '逗她男'

1

2

3

4

5

6

//索引某个索引

# /opt/server/sphinx/bin/indexer test1

//searchd 索引某个索引

# /opt/server/sphinx/bin/indexer test1 --rotate

//指定索引搜索

# /opt/server/sphinx/bin/indexer -i test1 '逗她男'

1、 增量索引方案

//创建表记录偏移 CREATE TABLE IF NOT EXISTS `search_counter` ( `counterid` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '统计标示', `max_doc_id` int(11) unsigned NOT NULL COMMENT '已统计数', PRIMARY KEY (`counterid`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; //增量索引 # /opt/server/sphinx/bin/indexer test1stemmed --rotate //合并索引 # /opt/server/sphinx/bin/indexer --merge test1 test1stemmed --rotate

1

2

3

4

5

6

7

8

9

10

//创建表记录偏移

CREATE TABLE IF NOT EXISTS `search_counter` (

`counterid` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '统计标示',

`max_doc_id` int(11) unsigned NOT NULL COMMENT '已统计数',

PRIMARY KEY (`counterid`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

//增量索引

# /opt/server/sphinx/bin/indexer test1stemmed --rotate

//合并索引

# /opt/server/sphinx/bin/indexer --merge test1 test1stemmed --rotate

索引策略
1、搜索时,同时从主索引和增量索引取数据
2、每5分钟,运行一次增量索引;满足新数据搜索需求
3、每晚,运行一次主索引,同时会更新索引标示;再运行增量索引,实质为清空增量索引,避免与主索引重复索引
4、好处:避免开合并索引,合并索引效率较差
5、如数据量特别大,可考虑合并索引的方案

索引策略shell

//add.sh #!/bin/sh /opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log //all.sh #!/bin/sh /opt/server/sphinx/bin/indexer test1 --rotate >> /opt/server/sphinx/var/log/all.sh.log /opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log

1

2

3

4

5

6

7

//add.sh

#!/bin/sh

/opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log

//all.sh

#!/bin/sh

/opt/server/sphinx/bin/indexer test1 --rotate >> /opt/server/sphinx/var/log/all.sh.log

/opt/server/sphinx/bin/indexer test1stemmed --rotate >> /opt/server/sphinx/var/log/add.sh.log

四、 多个表独立索引方案
场景:如有用户搜索、商品搜索等多个索引需求
策略:配置一个多索引方案,每个表单独建立索引
前端根据不同类型选择不同的查询索引;全部,即选择所有索引
===========================================================================

 

相关内容

热门资讯

64公斤金条!香港海关侦破有记... 3月11日,香港海关发布消息,3月5日在香港国际机场侦破一起空运走私金条案件,查获约64公斤金条,估...
宝丰能源:2024年净利润63... 中证智能财讯宝丰能源(600989)3月12日披露2024年年度报告。2024年,公司实现营业总收入...
皇台酒业:公司暂未收到控股股东... 每经AI快讯,有投资者在投资者互动平台提问:董事长,公司控股股东持股比例只有4.02%,控股6年以来...
注意!汇绿生态将于3月27日召... 每经AI快讯,汇绿生态3月11日发布公告称,2025年3月27日(星期四)14:30,公司将在湖北省...
美国经济新难题 转自:北京商报曾享受过“特朗普行情”的华尔街,如今也在承受“特朗普暴跌”的惨痛。而经历新一轮股市雪崩...
美国经济亮起红灯!美媒:特朗普... 转自:北京日报客户端美国商务部长卢特尼克日前在答记者问时称,总统特朗普承诺的对所有美国进口的钢铁和铝...
招商积余交棒 地产操盘手陈智恒... 观点网 过去一年,招商积余曾发生过多起人事变动,公司董事长聂黎明、副总经理陈林、监事会主席李石芳、董...
产业帮扶促振兴 分红增收鼓人心... 为贯彻落实四川省委、省政府关于39个欠发达县域托底性帮扶工作部署,深入推动产业帮扶与基层党组织建设有...
汉中宁强汉水源村:做好“山水文... 编者按:乡村振兴,是新时代“三农”工作的总抓手,也是实现共同富裕的必由之路。近日,陕西发布第三批乡村...
超一线男星澳门赌博“输光10.... 发射第一财经每日精选最热门大公司动态。【互联网】超一线男星澳门赌博“输光10.3亿”?微博CEO回应...
十四届全国人大三次会议闭幕侧记 转自:北京日报客户端新华社北京3月11日电 题:逐梦春天里 同心向未来——十四届全国人大三次会议闭幕...
社招!年龄放宽到40岁!上交所... 一、招聘人员基本条件1.较高的政治素质和道德修养。拥护中华人民共和国宪法,拥护中国共产党的领导和社会...
“一个”是指多少钱? “一个”是指多少钱?听说十元、百元、千元、万元、十万、百万……等等都有代号。“一个”是指多少钱呢?谢...
火土成慈格的名人 火土成慈格的名人 火土成慈格的名人有杨颖。这在格局里面被称为两气成像格,具体来说是火土成慈格。这...
一个人开始走上坡路的5种顶级思... 人生在世,切记不做两件事:用自己的嘴干扰别人的人生,靠别人的脑子思考自己的人生。莎士比亚曾说过:“倾...
特别怀念8年前,那时每星期六上... 特别怀念8年前,那时每星期六上午10点都有象棋直播,而现在没有了,不知还能不能恢复……我也很怀念,那...
主角从弱小到强大的古修真小说 主角从弱小到强大的古修真小说星辰变 惟我独仙条件非常符合 就怕你看过《地狱战魔》《地狱战魔》 ,我前...
纯直屏超大杯旗舰!OPPO F... 快科技3月11日消息,OPPO Find X8 Ultra将在近期发布,官方已经开启了预热。今天,博...
兴业银锡:2024年公司铋金属... 每经AI快讯,有投资者在投资者互动平台提问:现在公司的铋产量有多少?有4000吨/年吗?兴业银锡(0...
金盘科技:在数据中心业务领域,... 每经AI快讯,有投资者在投资者互动平台提问:请问贵公司在手订单是否充足?储能业务、数据中心业务是否仍...