您现在的位置是:首页 >其他 >一条神奇的sql网站首页其他

一条神奇的sql

smile_life_ 2024-06-17 10:14:22
简介一条神奇的sql

背景:人脸闸机,每刷一次人脸,就会有一条记录插入到通行记录表。而闸机可能会多次识别同一个人的人脸,那么这时通行记录表就会插入多次同一个人的记录,同一个人的记录中,只不过通行时间不同而已

需求:查询出最新的5个人的通行记录信息(通行记录表100w条数据),mysql语法编写

你会怎么写这条sql?

原sql

SELECT
	a.*
FROM
	ykt_ryface_records a
INNER JOIN ( 
        SELECT 
        max( record_time ) AS record_time
        , person_id
        , max( data_id ) id 
        FROM ykt_ryface_records 
        GROUP BY person_id 
) AS c ON a.data_id = c.id
ORDER BY record_Time DESC 
LIMIT 0,5

ykt_ryface_records 通行记录表

        data_id 主键

        person_id 刷脸人的id

        record_time 通行时间

这条sql的意思是:子查询中根据刷脸人id分组,获取最大通行时间,最大的主键id 作为一个c表,然后再匹配通行记录表a,这么写会导致全表扫描,肯定慢的,执行了几十秒才有结果

本想着在c表中加一个 limit 500,应该也可以了,当如果4个人刷了500条数据呢,那么会导致最终查询出来的数据不准确。虽然现实中这个需求不可能出现。毕竟刷脸刷几次不行,他早走别的通道去了。

后来想着在结合java代码程序执行,就是执行查500条数据的sql,返回结果集,判断结果集是否有5条数据,如果没有再查500条,一直到满足5条数据为止。这样是可行的,但感觉不爽,我喜欢一条sql搞定一切

优化的sql,本来没写出来,去趟洗手间回来就写出来了,哈哈

SELECT
	a.* 
FROM
	ykt_ryface_records a
	INNER JOIN ( 
	
				SELECT a.person_id,a.person_name,@idStr,@count,@dataid id
				from ykt_ryface_records a
				INNER JOIN (select @idStr:=0,@count:=0,@dataid:=0) b on 
				(
				IF(find_in_set(IFNULL(a.person_id,-999),@idStr)=0
				,concat(@idStr:=CONCAT(@idStr,',',IFNULL(a.person_id,-999)),@count:=(LENGTH(@idStr) - LENGTH(REPLACE(@idStr,',',''))),@dataid:=a.data_id)
				,-1) = 0 
				)  
				order by a.record_Time DESC  
				LIMIT 5

) AS c ON a.data_id = c.id 
ORDER BY record_Time DESC

精华都在c表中的inner join,以前我都是在select 列名这用临时变量,灵机一动在inner join 的on条件后也可以用。c表的sql大概意思是,降序查询每条记录,然后对每条记录的的刷脸人id,主键id,放到临时变量中。查询逻辑如:先查第一条记录,记录了相关id,这时候的条件是on 0=0 然后查第二条,发现和第一条记录的相关id一样,就返回-1,那么条件就是 on -1 = 0,因为是内连接,所以第二条记录就没有了。按照这样的逻辑一次类推,巧妙使用limit 5就找出5个人的最新数据了。然后再作为c表关联a表查询,就避免了全表扫描了。该sql执行时间在0.1秒以下

感想:

巧妙利用临时变量,解决很多复杂的sql查询,提高效率。

风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。