您现在的位置是:首页 >其他 >canal实现mysql数据实时同步到es网站首页其他
canal实现mysql数据实时同步到es
问题背景
最近有一个需求:原有一些mysql数据,这些数据量很大,且包含文本信息,需要对其进行搜索,这时如果使用mysql的like来匹配,效率会很低,且很可能影响整个系统的运行,经过和同事的讨论,最终决定使用es来做搜索。
但是源数据有很多关联关系,搜索的时候也会带上这些条件,因此需要将文本信息同步到es,且当mysql数据有新增、更新或删除操作时,也实时同步到es.
工具调研
从mysql同步到es的工具,目前市面上比较火的是logstash和canal
logstash
logstash经过调研就能知道,它依赖于更新字段,也就是说,需要有一个字段如update_time,当这个时间大于当前时间,就表明数据做了更新。但由于我们的数据来源于多个渠道,大家规范不统一(很可能时区都不统一),且update_time字段没有做触发更新,因此不考虑使用logstash
canal
canal是可以使用队列的,但考虑到部署难度,以及尽量少引入其他工具的原则,不使用队列,而是直接监听消息。
事实上,想要启动canal参考这篇文档就足够了canal QuickStart
但实际部署时会踩很多坑,比如canal的readme以及wiki首页都没有明显提到ClientAdapter这个工具,事实上这个工具是很好用的,它可以批量将mysql数据导入es,也可以自动同步mysql数据变动到es,非常好用,因此,下载的时候最好就把deployer和adapter一块下载了
canal基本按照官方文档来部署就行,没有多大坑,但记得在这之前确认下bin_log是否真的开启了,否则canal会报错,而且报错信息难以发现原因。
clientAdapter
第一个坑,es的监听。我本机随便下的一个es,实际上是有默认账号密码的,但是不知道是我版本原因还是怎么样,总之用默认账号密码无法登录,这时我生成了以下账号密码,参考的这篇文章:es账号密码设置,注意要记得存一下生成的账号密码。
然后,我发现adapter依旧报错(这里报错信息找不到了),发现是es没有设置
。。。
暂时没时间来写这篇文章,先直接写下途中会遇到的坑及解决方案
注意事项:
(1)adapter的sql语句配置中,不要使用反引号"`",否则会报奇怪的错(报错信息忘了)
(2)adapter1.16的bug:所有表都需要别名,哪怕是一个表,也要写成如:select u.name from user as u
(3)大量数据导入,需要设置并发数,提高并发数可解决导入失败的问题
(4)记得设置下es账号密码,以及, es的配置中network.host要改成network.host: 0.0.0.0(如果遇到了adapter同步500,INternal Server Error,不要问,先这么改吧,我也是查issue查出来的)
(5)有可能跑一段时间adapter不再同步了,临时的解决方案是把instance下的mate.bat、h2.mv.db删掉,会自动继续同步的,治本的方案暂时没时间考虑