[关闭]
@fsfzp888 2019-02-01T00:08:55.000000Z 字数 10359 阅读 1044

SQL问题汇总

SQL


SQL语句用于操作各类数据库,但是如果仅仅只是看SELECT,UPDATE,CREATE,DELETE等手册上边的语法,根本就学不会SQL语句。所以这里设法把leetcode上边的数据库相关的问题进行总结分类,以进一步学习和熟悉SQL语句。SQL语句用来处理某些常用问题,有些不明显,而且显得有些难以思考和解决。

多个表连接查询问题

在查询数据库表条目的时候,有时候需要从多张表中汇总信息,这个时候就需要使用到SQL的JOIN语句。JOIN是对表做连接操作,有LEFT JOIN,RIGHT JOIN和INNER JOIN等。左右连接的差别只是在ON条件表达式中不满足的时候,保留左表还是右表的数据而已。

组合两张表

  1. 1: Person
  2. +-------------+---------+
  3. | 列名 | 类型 |
  4. +-------------+---------+
  5. | PersonId | int |
  6. | FirstName | varchar |
  7. | LastName | varchar |
  8. +-------------+---------+
  9. PersonId 是上表主键
  10. 2: Address
  11. +-------------+---------+
  12. | 列名 | 类型 |
  13. +-------------+---------+
  14. | AddressId | int |
  15. | PersonId | int |
  16. | City | varchar |
  17. | State | varchar |
  18. +-------------+---------+
  19. AddressId 是上表主键
  20. 编写一个 SQL 查询,满足条件:无论 person 是否有地址信息,都需要基于上述两表提供 person 的以下信息:
  21. FirstName, LastName, City, State

如上所示是一个连接表的问题,因为需要person不管有没有地址信息都要显示,所以可以使用左连接:

  1. SELECT FirstName, LastName, City, State FROM Person
  2. LEFT JOIN Address ON Person.PersonId=Address.PersonId;

如果使用右连接,也是可以的:

  1. SELECT FirstName, LastName, City, State FROM Address
  2. RIGHT JOIN Person ON Person.PersonId=Address.PersonId;

SELECT的表列可以来自多张表,而且可以不断使用JOIN语句进行拼接。

超过经理收入的员工

JOIN语句也可以配合WHERE来进一步约束查询,同时也可以自己和自己连接

  1. Employee 表包含所有员工,他们的经理也属于员工。每个员工都有一个 Id,此外还有一列对应员工的经理的 Id
  2. +----+-------+--------+-----------+
  3. | Id | Name | Salary | ManagerId |
  4. +----+-------+--------+-----------+
  5. | 1 | Joe | 70000 | 3 |
  6. | 2 | Henry | 80000 | 4 |
  7. | 3 | Sam | 60000 | NULL |
  8. | 4 | Max | 90000 | NULL |
  9. +----+-------+--------+-----------+
  10. 给定 Employee 表,编写一个 SQL 查询,该查询可以获取收入超过他们经理的员工的姓名。在上面的表格中,Joe 是唯一一个收入超过他的经理的员工。
  11. +----------+
  12. | Employee |
  13. +----------+
  14. | Joe |
  15. +----------+

上边的问题,可以使用如下的语句来查询:

  1. SELECT E1.Name FROM Employee E1
  2. LEFT JOIN Employee E2
  3. ON E1.ManagerId=E2.Id WHERE E1.Salary > E2.Salary;

从不订购的客户

  1. 某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。
  2. Customers 表:
  3. +----+-------+
  4. | Id | Name |
  5. +----+-------+
  6. | 1 | Joe |
  7. | 2 | Henry |
  8. | 3 | Sam |
  9. | 4 | Max |
  10. +----+-------+
  11. Orders 表:
  12. +----+------------+
  13. | Id | CustomerId |
  14. +----+------------+
  15. | 1 | 3 |
  16. | 2 | 1 |
  17. +----+------------+
  18. 例如给定上述表格,你的查询应返回:
  19. +-----------+
  20. | Customers |
  21. +-----------+
  22. | Henry |
  23. | Max |
  24. +-----------+

这个问题,有个Exclude的操作在里边,需要筛选所有的Id不在另外一个表的行。由于我们知道表连接的时候,不满足的时候会有NULL的列,所以可以利用左连接,然后判断是否为NULL:

  1. SELECT t.Name FROM
  2. (SELECT Name, CustomerId FROM Customers
  3. LEFT JOIN
  4. Orders ON Customers.Id=Orders.CustomerId) t
  5. WHERE t.CustomerId IS NULL;
  6. # 在SQL里边,判断是不是NULL不能使用=符号

顺序问题

数据库表查询,很多时候需要获取那一列排第几的行,这个时候可以利用SQL的LIMIT,OFFSET以及ORDER BY语句。

第二高的薪水

比如下边这个问题,需要获取第二高的元素,这个时候结合DESC降序排列即可:

  1. 编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary
  2. +----+--------+
  3. | Id | Salary |
  4. +----+--------+
  5. | 1 | 100 |
  6. | 2 | 200 |
  7. | 3 | 300 |
  8. +----+--------+
  9. 例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null
  10. +---------------------+
  11. | SecondHighestSalary |
  12. +---------------------+
  13. | 200 |
  14. +---------------------+

解答:

  1. SELECT Salary FROM Employee ORDER BY Salary DESC LIMIT 1 OFFSET 1;

第N高的薪水

获取表的某一列排序后的任一行都是可以的,比如如下问题:

  1. 编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。
  2. +----+--------+
  3. | Id | Salary |
  4. +----+--------+
  5. | 1 | 100 |
  6. | 2 | 200 |
  7. | 3 | 300 |
  8. +----+--------+
  9. 例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。如果不存在第 n 高的薪水,那么查询应返回 null
  10. +------------------------+
  11. | getNthHighestSalary(2) |
  12. +------------------------+
  13. | 200 |
  14. +------------------------+

可以使用一个SQL函数来实现获取排序后的任意位置的行,而且在SQL函数里边可以使用DECLARE和SET来设置变量:

  1. CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INT
  2. BEGIN
  3. DECLARE C int; # SQL函数里边定义变量的格式
  4. SET C=N-1; # 给SQL函数内变量赋值的语法
  5. RETURN (
  6. # Write your MySQL query statement below.
  7. SELECT IFNULL((SELECT DISTINCT(Salary) FROM Employee
  8. ORDER BY Salary DESC LIMIT 1 OFFSET C), NULL)
  9. );
  10. END

分数排名

  1. 编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。
  2. +----+-------+
  3. | Id | Score |
  4. +----+-------+
  5. | 1 | 3.50 |
  6. | 2 | 3.65 |
  7. | 3 | 4.00 |
  8. | 4 | 3.85 |
  9. | 5 | 4.00 |
  10. | 6 | 3.65 |
  11. +----+-------+
  12. 例如,根据上述给定的 Scores 表,你的查询应该返回(按分数从高到低排列):
  13. +-------+------+
  14. | Score | Rank |
  15. +-------+------+
  16. | 4.00 | 1 |
  17. | 4.00 | 1 |
  18. | 3.85 | 2 |
  19. | 3.65 | 3 |
  20. | 3.65 | 3 |
  21. | 3.50 | 4 |
  22. +-------+------+

这个问题,需要在对分数进行排序后,在加上额外的排名信息,分数可以重复,同时排名是连续的,排名不是表里边的列,所以需要额外创建一些只读列,用于读取信息,这个可以利用SQL的子查询语句:

  1. SELECT A.Score,
  2. (SELECT COUNT(DISTINCT(Score)) FROM
  3. Scores WHERE Score >= A.Score) AS Rank
  4. FROM Scores A ORDER BY Score DESC;

需要对比临近行的问题

有些SQL问题,需要获取一些相邻行的信息,然后才能决定是否取出这些行。

  1. 编写一个 SQL 查询,查找所有至少连续出现三次的数字。
  2. +----+-----+
  3. | Id | Num |
  4. +----+-----+
  5. | 1 | 1 |
  6. | 2 | 1 |
  7. | 3 | 1 |
  8. | 4 | 2 |
  9. | 5 | 1 |
  10. | 6 | 2 |
  11. | 7 | 2 |
  12. +----+-----+
  13. 例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。
  14. +-----------------+
  15. | ConsecutiveNums |
  16. +-----------------+
  17. | 1 |
  18. +-----------------+

上边的问题可以通过定义SQL语句中的临时变量来解决。实际上上边这个问题,可以看作是一个原型问题,也就是获取一系列满足条件的连续行问题。不过目前来看,似乎没有通用的解法,只能根据具体的问题处理:

  1. # 定义临时变量记录重复的值的计数
  2. SELECT DISTINCT(t.Num) AS ConsecutiveNums FROM
  3. (SELECT log.Num AS NUM, (
  4. CASE WHEN @prev=log.Num
  5. THEN @cnt:=@cnt+1
  6. WHEN @prev:=log.Num
  7. THEN @cnt:=1
  8. ELSE @cnt:=1 END
  9. ) AS cnt FROM (SELECT @prev:=NULL)p, (SELECT @cnt:=0)c, Logs log) t
  10. WHERE t.cnt >= 3;

以前不知道,其实在SQL语句里边也可以定义临时变量,就是使用形如(SELECT $a:=0)这种获取临时表信息的方式,而且在SQL里边由于使用了=好作为布尔判断,所以定义了:=作为赋值操作符!对于任意SQL的临时表而言,都需要给出一个alias命名,这是上边给出名称的原因。

分组聚合问题

在SQL问题里边,很多时候都需要根据表中某些列的具体取值来分组,然后统计每一组的信息,在一些简单问题里边,可以直接使用GROUP BY和一些聚合函数来实现需求。

查找重复的电子邮箱

  1. 编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。
  2. 示例:
  3. +----+---------+
  4. | Id | Email |
  5. +----+---------+
  6. | 1 | a@b.com |
  7. | 2 | c@d.com |
  8. | 3 | a@b.com |
  9. +----+---------+
  10. 根据以上输入,你的查询应返回以下结果:
  11. +---------+
  12. | Email |
  13. +---------+
  14. | a@b.com |
  15. +---------+
  16. 说明:所有电子邮箱都是小写字母。

获取重复的行,这个需求也很普遍,其实就是对需要计算重复的列进行分组聚合即可:

  1. SELECT Email FROM Person GROUP BY Email HAVING COUNT(Email) > 1;

HAVING即可以放到SELECT后边,也可以放到GROUP BY后边,COUNT本身就是个聚合函数。

删除重复的电子邮箱

  1. 编写一个 SQL 查询,来删除 Person 表中所有重复的电子邮箱,重复的邮箱里只保留 Id 最小 的那个。
  2. +----+------------------+
  3. | Id | Email |
  4. +----+------------------+
  5. | 1 | john@example.com |
  6. | 2 | bob@example.com |
  7. | 3 | john@example.com |
  8. +----+------------------+
  9. Id 是这个表的主键。
  10. 例如,在运行你的查询语句之后,上面的 Person 表应返回以下几行:
  11. +----+------------------+
  12. | Id | Email |
  13. +----+------------------+
  14. | 1 | john@example.com |
  15. | 2 | bob@example.com |
  16. +----+------------------+

删除重复的表项,可以使用表连接语法:

  1. DELETE p1 FROM Person p1 LEFT JOIN Person p2 ON p1.Id > p2.Id WHERE p1.Email = p2.Email;

或者也可以:

  1. DELETE p1 FROM Person p1, Person p2 WHERE p1.Id > p2.Id AND p1.Email = p2.Email;

虽然这个问题看起来也是分组问题,只不过由于需要具体的Id,而且分组本身是为了查询,所以使用分组获取得到的

部门工资最高的员工

  1. Employee 表包含所有员工信息,每个员工有其对应的 Id, salary department Id
  2. +----+-------+--------+--------------+
  3. | Id | Name | Salary | DepartmentId |
  4. +----+-------+--------+--------------+
  5. | 1 | Joe | 70000 | 1 |
  6. | 2 | Henry | 80000 | 2 |
  7. | 3 | Sam | 60000 | 2 |
  8. | 4 | Max | 90000 | 1 |
  9. +----+-------+--------+--------------+
  10. Department 表包含公司所有部门的信息。
  11. +----+----------+
  12. | Id | Name |
  13. +----+----------+
  14. | 1 | IT |
  15. | 2 | Sales |
  16. +----+----------+
  17. 编写一个 SQL 查询,找出每个部门工资最高的员工。例如,根据上述给定的表格,Max IT 部门有最高工资,Henry Sales 部门有最高工资。
  18. +------------+----------+--------+
  19. | Department | Employee | Salary |
  20. +------------+----------+--------+
  21. | IT | Max | 90000 |
  22. | Sales | Henry | 80000 |
  23. +------------+----------+--------+

这个问题就是依据某列来分组,然后获取每一组中的最大值,获取一组中的最大值有个聚合函数MAX,所以这个问题可以:

  1. SELECT t.Department AS Department, em.Name AS Employee, t.Salary AS Salary FROM
  2. (SELECT D.Name AS Department, D.Id AS DId, MAX(E.Salary) AS Salary FROM Employee E
  3. LEFT JOIN
  4. Department D ON E.DepartmentId=D.Id GROUP BY E.DepartmentId) t,
  5. Employee em WHERE t.DId=em.DepartmentId AND t.Salary=em.Salary;
  6. # 下边的语句是错误的,因为GROUP BY分组只对聚合的列是有效的,其它的列则不是想要的结果
  7. SELECT d1.Name As Department, e1.Name AS Employee, e1.Salary AS Salary FROM
  8. (SELECT Name, MAX(salary), DepartmentId FROM Employee GROUP BY DepartmentId) e1,
  9. Department d1 WHERE d1.Id=e1.DepartmentId;

部门工资前三高的员工

  1. Employee 表包含所有员工信息,每个员工有其对应的 Id, salary department Id
  2. +----+-------+--------+--------------+
  3. | Id | Name | Salary | DepartmentId |
  4. +----+-------+--------+--------------+
  5. | 1 | Joe | 70000 | 1 |
  6. | 2 | Henry | 80000 | 2 |
  7. | 3 | Sam | 60000 | 2 |
  8. | 4 | Max | 90000 | 1 |
  9. | 5 | Janet | 69000 | 1 |
  10. | 6 | Randy | 85000 | 1 |
  11. +----+-------+--------+--------------+
  12. Department 表包含公司所有部门的信息。
  13. +----+----------+
  14. | Id | Name |
  15. +----+----------+
  16. | 1 | IT |
  17. | 2 | Sales |
  18. +----+----------+
  19. 编写一个 SQL 查询,找出每个部门工资前三高的员工。例如,根据上述给定的表格,查询结果应返回:
  20. +------------+----------+--------+
  21. | Department | Employee | Salary |
  22. +------------+----------+--------+
  23. | IT | Max | 90000 |
  24. | IT | Randy | 85000 |
  25. | IT | Joe | 70000 |
  26. | Sales | Henry | 80000 |
  27. | Sales | Sam | 60000 |
  28. +------------+----------+--------+

这个是分组排序问题:

  1. SELECT D.Name AS Department, E.Name AS Employee, E.Salary AS Salary FROM Employee E, Department D
  2. WHERE E.DepartmentId=D.Id AND
  3. 3 > (SELECT COUNT(DISTINCT(Salary)) FROM Employee
  4. WHERE DepartmentId=D.Id AND Salary > E.Salary)
  5. ORDER BY D.Name ASC, E.Salary DESC;

分组排序问题,利用了在子查询的SELECT语句中可以访问外围语句的特点,构造WHERE条件表达式。因为每一组中的每一行是否需要被选中,取决于其在这一组中的固定位置,所以可以这样做。如果当前行是否被选中,需要考虑后边行的信息,那么就会比较困难了,如下边的问题所示。

体育馆的人流量

  1. X 市建了一个新的体育馆,每日人流量信息被记录在这三列信息中:序号 (id)、日期 (date)、 人流量 (people)。
  2. 请编写一个查询语句,找出高峰期时段,要求连续三天及以上,并且每天人流量均不少于100
  3. 例如,表 stadium
  4. +------+------------+-----------+
  5. | id | date | people |
  6. +------+------------+-----------+
  7. | 1 | 2017-01-01 | 10 |
  8. | 2 | 2017-01-02 | 109 |
  9. | 3 | 2017-01-03 | 150 |
  10. | 4 | 2017-01-04 | 99 |
  11. | 5 | 2017-01-05 | 145 |
  12. | 6 | 2017-01-06 | 1455 |
  13. | 7 | 2017-01-07 | 199 |
  14. | 8 | 2017-01-08 | 188 |
  15. +------+------------+-----------+
  16. 对于上面的示例数据,输出为:
  17. +------+------------+-----------+
  18. | id | date | people |
  19. +------+------------+-----------+
  20. | 5 | 2017-01-05 | 145 |
  21. | 6 | 2017-01-06 | 1455 |
  22. | 7 | 2017-01-07 | 199 |
  23. | 8 | 2017-01-08 | 188 |
  24. +------+------------+-----------+
  25. Note:
  26. 每天只有一行记录,日期随着 id 的增加而增加。

一个取巧的方法:

  1. SELECT DISTINCT s1.* FROM stadium s1, stadium s2, stadium s3
  2. WHERE s1.people >= 100 AND s2.people >= 100 AND s3.people >= 100 AND
  3. (
  4. (s1.id-s2.id = 1 AND s2.id-s3.id = 1)
  5. OR
  6. (s2.id-s1.id=1 AND s1.id-s3.id=1)
  7. OR
  8. (s3.id-s2.id=1 AND s2.id-s1.id=1)
  9. )
  10. ORDER BY s1.id;

这个方法也不好,只是硬编码而已。如果业务要求前几十个,那么就要连接几十个了?上边的方法的本质就是表连接。

行程和用户

  1. Trips 表中存所有出租车的行程信息。每段行程有唯一键 IdClient_Id Driver_Id Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, cancelled_by_driver’, cancelled_by_client’)。
  2. +----+-----------+-----------+---------+--------------------+----------+
  3. | Id | Client_Id | Driver_Id | City_Id | Status |Request_at|
  4. +----+-----------+-----------+---------+--------------------+----------+
  5. | 1 | 1 | 10 | 1 | completed |2013-10-01|
  6. | 2 | 2 | 11 | 1 | cancelled_by_driver|2013-10-01|
  7. | 3 | 3 | 12 | 6 | completed |2013-10-01|
  8. | 4 | 4 | 13 | 6 | cancelled_by_client|2013-10-01|
  9. | 5 | 1 | 10 | 1 | completed |2013-10-02|
  10. | 6 | 2 | 11 | 6 | completed |2013-10-02|
  11. | 7 | 3 | 12 | 6 | completed |2013-10-02|
  12. | 8 | 2 | 12 | 12 | completed |2013-10-03|
  13. | 9 | 3 | 10 | 12 | completed |2013-10-03|
  14. | 10 | 4 | 13 | 12 | cancelled_by_driver|2013-10-03|
  15. +----+-----------+-----------+---------+--------------------+----------+
  16. Users 表存所有用户。每个用户有唯一键 Users_IdBanned 表示这个用户是否被禁止,Role 则是一个表示(‘client’, driver’, partner’)的枚举类型。
  17. +----------+--------+--------+
  18. | Users_Id | Banned | Role |
  19. +----------+--------+--------+
  20. | 1 | No | client |
  21. | 2 | Yes | client |
  22. | 3 | No | client |
  23. | 4 | No | client |
  24. | 10 | No | driver |
  25. | 11 | No | driver |
  26. | 12 | No | driver |
  27. | 13 | No | driver |
  28. +----------+--------+--------+
  29. 写一段 SQL 语句查出 2013101 2013103 期间非禁止用户的取消率。基于上表,你的 SQL 语句应返回如下结果,取消率(Cancellation Rate)保留两位小数。
  30. +------------+-------------------+
  31. | Day | Cancellation Rate |
  32. +------------+-------------------+
  33. | 2013-10-01 | 0.33 |
  34. | 2013-10-02 | 0.00 |
  35. | 2013-10-03 | 0.50 |
  36. +------------+-------------------+

这个问题也是分组问题,就是按照日期进行分组,然后统计每一天的取消的数目,如果不算被banned的用户,其实就是统计一张表里边的信息,按照日期分组,而后算出这一天不是completed的计数和总的计数相除即可。不过加上了banned的表,但是思路还是不变的。

  1. SELECT t1.Request_at AS 'Day',
  2. ROUND(COUNT(DISTINCT IF(t1.Status!='completed' AND u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)) / COUNT(DISTINCT IF(u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)), 2) AS 'Cancellation Rate' FROM Trips t1
  3. LEFT JOIN Users u1
  4. ON t1.Client_id=u1.Users_id
  5. LEFT JOIN Users u2
  6. ON t1.Driver_id=u2.Users_id
  7. WHERE t1.Request_at BETWEEN '2013-10-01' AND '2013-10-03'
  8. GROUP BY t1.Request_at;

总结

在做题的时候,发现自己对于SQL的很多细节都不知道,上边的一些例题权当总结,以后多看看,让自己了解SQL的关键点,包括表连接,分组,一些内置函数等。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注