@fsfzp888
2019-02-01T08:08:55.000000Z
字数 10359
阅读 1176
SQL
SQL语句用于操作各类数据库,但是如果仅仅只是看SELECT,UPDATE,CREATE,DELETE等手册上边的语法,根本就学不会SQL语句。所以这里设法把leetcode上边的数据库相关的问题进行总结分类,以进一步学习和熟悉SQL语句。SQL语句用来处理某些常用问题,有些不明显,而且显得有些难以思考和解决。
在查询数据库表条目的时候,有时候需要从多张表中汇总信息,这个时候就需要使用到SQL的JOIN语句。JOIN是对表做连接操作,有LEFT JOIN,RIGHT JOIN和INNER JOIN等。左右连接的差别只是在ON条件表达式中不满足的时候,保留左表还是右表的数据而已。
表1: Person
+-------------+---------+
| 列名 | 类型 |
+-------------+---------+
| PersonId | int |
| FirstName | varchar |
| LastName | varchar |
+-------------+---------+
PersonId 是上表主键
表2: Address
+-------------+---------+
| 列名 | 类型 |
+-------------+---------+
| AddressId | int |
| PersonId | int |
| City | varchar |
| State | varchar |
+-------------+---------+
AddressId 是上表主键
编写一个 SQL 查询,满足条件:无论 person 是否有地址信息,都需要基于上述两表提供 person 的以下信息:
FirstName, LastName, City, State
如上所示是一个连接表的问题,因为需要person不管有没有地址信息都要显示,所以可以使用左连接:
SELECT FirstName, LastName, City, State FROM Person
LEFT JOIN Address ON Person.PersonId=Address.PersonId;
如果使用右连接,也是可以的:
SELECT FirstName, LastName, City, State FROM Address
RIGHT JOIN Person ON Person.PersonId=Address.PersonId;
SELECT的表列可以来自多张表,而且可以不断使用JOIN语句进行拼接。
JOIN语句也可以配合WHERE来进一步约束查询,同时也可以自己和自己连接
Employee 表包含所有员工,他们的经理也属于员工。每个员工都有一个 Id,此外还有一列对应员工的经理的 Id。
+----+-------+--------+-----------+
| Id | Name | Salary | ManagerId |
+----+-------+--------+-----------+
| 1 | Joe | 70000 | 3 |
| 2 | Henry | 80000 | 4 |
| 3 | Sam | 60000 | NULL |
| 4 | Max | 90000 | NULL |
+----+-------+--------+-----------+
给定 Employee 表,编写一个 SQL 查询,该查询可以获取收入超过他们经理的员工的姓名。在上面的表格中,Joe 是唯一一个收入超过他的经理的员工。
+----------+
| Employee |
+----------+
| Joe |
+----------+
上边的问题,可以使用如下的语句来查询:
SELECT E1.Name FROM Employee E1
LEFT JOIN Employee E2
ON E1.ManagerId=E2.Id WHERE E1.Salary > E2.Salary;
某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。
Customers 表:
+----+-------+
| Id | Name |
+----+-------+
| 1 | Joe |
| 2 | Henry |
| 3 | Sam |
| 4 | Max |
+----+-------+
Orders 表:
+----+------------+
| Id | CustomerId |
+----+------------+
| 1 | 3 |
| 2 | 1 |
+----+------------+
例如给定上述表格,你的查询应返回:
+-----------+
| Customers |
+-----------+
| Henry |
| Max |
+-----------+
这个问题,有个Exclude的操作在里边,需要筛选所有的Id不在另外一个表的行。由于我们知道表连接的时候,不满足的时候会有NULL的列,所以可以利用左连接,然后判断是否为NULL:
SELECT t.Name FROM
(SELECT Name, CustomerId FROM Customers
LEFT JOIN
Orders ON Customers.Id=Orders.CustomerId) t
WHERE t.CustomerId IS NULL;
# 在SQL里边,判断是不是NULL不能使用=符号
数据库表查询,很多时候需要获取那一列排第几的行,这个时候可以利用SQL的LIMIT,OFFSET以及ORDER BY语句。
比如下边这个问题,需要获取第二高的元素,这个时候结合DESC降序排列即可:
编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。
+----+--------+
| Id | Salary |
+----+--------+
| 1 | 100 |
| 2 | 200 |
| 3 | 300 |
+----+--------+
例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。
+---------------------+
| SecondHighestSalary |
+---------------------+
| 200 |
+---------------------+
解答:
SELECT Salary FROM Employee ORDER BY Salary DESC LIMIT 1 OFFSET 1;
获取表的某一列排序后的任一行都是可以的,比如如下问题:
编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。
+----+--------+
| Id | Salary |
+----+--------+
| 1 | 100 |
| 2 | 200 |
| 3 | 300 |
+----+--------+
例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。如果不存在第 n 高的薪水,那么查询应返回 null。
+------------------------+
| getNthHighestSalary(2) |
+------------------------+
| 200 |
+------------------------+
可以使用一个SQL函数来实现获取排序后的任意位置的行,而且在SQL函数里边可以使用DECLARE和SET来设置变量:
CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INT
BEGIN
DECLARE C int; # SQL函数里边定义变量的格式
SET C=N-1; # 给SQL函数内变量赋值的语法
RETURN (
# Write your MySQL query statement below.
SELECT IFNULL((SELECT DISTINCT(Salary) FROM Employee
ORDER BY Salary DESC LIMIT 1 OFFSET C), NULL)
);
END
编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。
+----+-------+
| Id | Score |
+----+-------+
| 1 | 3.50 |
| 2 | 3.65 |
| 3 | 4.00 |
| 4 | 3.85 |
| 5 | 4.00 |
| 6 | 3.65 |
+----+-------+
例如,根据上述给定的 Scores 表,你的查询应该返回(按分数从高到低排列):
+-------+------+
| Score | Rank |
+-------+------+
| 4.00 | 1 |
| 4.00 | 1 |
| 3.85 | 2 |
| 3.65 | 3 |
| 3.65 | 3 |
| 3.50 | 4 |
+-------+------+
这个问题,需要在对分数进行排序后,在加上额外的排名信息,分数可以重复,同时排名是连续的,排名不是表里边的列,所以需要额外创建一些只读列,用于读取信息,这个可以利用SQL的子查询语句:
SELECT A.Score,
(SELECT COUNT(DISTINCT(Score)) FROM
Scores WHERE Score >= A.Score) AS Rank
FROM Scores A ORDER BY Score DESC;
有些SQL问题,需要获取一些相邻行的信息,然后才能决定是否取出这些行。
编写一个 SQL 查询,查找所有至少连续出现三次的数字。
+----+-----+
| Id | Num |
+----+-----+
| 1 | 1 |
| 2 | 1 |
| 3 | 1 |
| 4 | 2 |
| 5 | 1 |
| 6 | 2 |
| 7 | 2 |
+----+-----+
例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。
+-----------------+
| ConsecutiveNums |
+-----------------+
| 1 |
+-----------------+
上边的问题可以通过定义SQL语句中的临时变量来解决。实际上上边这个问题,可以看作是一个原型问题,也就是获取一系列满足条件的连续行问题。不过目前来看,似乎没有通用的解法,只能根据具体的问题处理:
# 定义临时变量记录重复的值的计数
SELECT DISTINCT(t.Num) AS ConsecutiveNums FROM
(SELECT log.Num AS NUM, (
CASE WHEN @prev=log.Num
THEN @cnt:=@cnt+1
WHEN @prev:=log.Num
THEN @cnt:=1
ELSE @cnt:=1 END
) AS cnt FROM (SELECT @prev:=NULL)p, (SELECT @cnt:=0)c, Logs log) t
WHERE t.cnt >= 3;
以前不知道,其实在SQL语句里边也可以定义临时变量,就是使用形如(SELECT $a:=0)这种获取临时表信息的方式,而且在SQL里边由于使用了=
好作为布尔判断,所以定义了:=
作为赋值操作符!对于任意SQL的临时表而言,都需要给出一个alias命名,这是上边给出名称的原因。
在SQL问题里边,很多时候都需要根据表中某些列的具体取值来分组,然后统计每一组的信息,在一些简单问题里边,可以直接使用GROUP BY和一些聚合函数来实现需求。
编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。
示例:
+----+---------+
| Id | Email |
+----+---------+
| 1 | a@b.com |
| 2 | c@d.com |
| 3 | a@b.com |
+----+---------+
根据以上输入,你的查询应返回以下结果:
+---------+
| Email |
+---------+
| a@b.com |
+---------+
说明:所有电子邮箱都是小写字母。
获取重复的行,这个需求也很普遍,其实就是对需要计算重复的列进行分组聚合即可:
SELECT Email FROM Person GROUP BY Email HAVING COUNT(Email) > 1;
HAVING即可以放到SELECT后边,也可以放到GROUP BY后边,COUNT本身就是个聚合函数。
编写一个 SQL 查询,来删除 Person 表中所有重复的电子邮箱,重复的邮箱里只保留 Id 最小 的那个。
+----+------------------+
| Id | Email |
+----+------------------+
| 1 | john@example.com |
| 2 | bob@example.com |
| 3 | john@example.com |
+----+------------------+
Id 是这个表的主键。
例如,在运行你的查询语句之后,上面的 Person 表应返回以下几行:
+----+------------------+
| Id | Email |
+----+------------------+
| 1 | john@example.com |
| 2 | bob@example.com |
+----+------------------+
删除重复的表项,可以使用表连接语法:
DELETE p1 FROM Person p1 LEFT JOIN Person p2 ON p1.Id > p2.Id WHERE p1.Email = p2.Email;
或者也可以:
DELETE p1 FROM Person p1, Person p2 WHERE p1.Id > p2.Id AND p1.Email = p2.Email;
虽然这个问题看起来也是分组问题,只不过由于需要具体的Id,而且分组本身是为了查询,所以使用分组获取得到的
Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。
+----+-------+--------+--------------+
| Id | Name | Salary | DepartmentId |
+----+-------+--------+--------------+
| 1 | Joe | 70000 | 1 |
| 2 | Henry | 80000 | 2 |
| 3 | Sam | 60000 | 2 |
| 4 | Max | 90000 | 1 |
+----+-------+--------+--------------+
Department 表包含公司所有部门的信息。
+----+----------+
| Id | Name |
+----+----------+
| 1 | IT |
| 2 | Sales |
+----+----------+
编写一个 SQL 查询,找出每个部门工资最高的员工。例如,根据上述给定的表格,Max 在 IT 部门有最高工资,Henry 在 Sales 部门有最高工资。
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT | Max | 90000 |
| Sales | Henry | 80000 |
+------------+----------+--------+
这个问题就是依据某列来分组,然后获取每一组中的最大值,获取一组中的最大值有个聚合函数MAX,所以这个问题可以:
SELECT t.Department AS Department, em.Name AS Employee, t.Salary AS Salary FROM
(SELECT D.Name AS Department, D.Id AS DId, MAX(E.Salary) AS Salary FROM Employee E
LEFT JOIN
Department D ON E.DepartmentId=D.Id GROUP BY E.DepartmentId) t,
Employee em WHERE t.DId=em.DepartmentId AND t.Salary=em.Salary;
# 下边的语句是错误的,因为GROUP BY分组只对聚合的列是有效的,其它的列则不是想要的结果
SELECT d1.Name As Department, e1.Name AS Employee, e1.Salary AS Salary FROM
(SELECT Name, MAX(salary), DepartmentId FROM Employee GROUP BY DepartmentId) e1,
Department d1 WHERE d1.Id=e1.DepartmentId;
Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id 。
+----+-------+--------+--------------+
| Id | Name | Salary | DepartmentId |
+----+-------+--------+--------------+
| 1 | Joe | 70000 | 1 |
| 2 | Henry | 80000 | 2 |
| 3 | Sam | 60000 | 2 |
| 4 | Max | 90000 | 1 |
| 5 | Janet | 69000 | 1 |
| 6 | Randy | 85000 | 1 |
+----+-------+--------+--------------+
Department 表包含公司所有部门的信息。
+----+----------+
| Id | Name |
+----+----------+
| 1 | IT |
| 2 | Sales |
+----+----------+
编写一个 SQL 查询,找出每个部门工资前三高的员工。例如,根据上述给定的表格,查询结果应返回:
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT | Max | 90000 |
| IT | Randy | 85000 |
| IT | Joe | 70000 |
| Sales | Henry | 80000 |
| Sales | Sam | 60000 |
+------------+----------+--------+
这个是分组排序问题:
SELECT D.Name AS Department, E.Name AS Employee, E.Salary AS Salary FROM Employee E, Department D
WHERE E.DepartmentId=D.Id AND
3 > (SELECT COUNT(DISTINCT(Salary)) FROM Employee
WHERE DepartmentId=D.Id AND Salary > E.Salary)
ORDER BY D.Name ASC, E.Salary DESC;
分组排序问题,利用了在子查询的SELECT语句中可以访问外围语句的特点,构造WHERE条件表达式。因为每一组中的每一行是否需要被选中,取决于其在这一组中的固定位置,所以可以这样做。如果当前行是否被选中,需要考虑后边行的信息,那么就会比较困难了,如下边的问题所示。
X 市建了一个新的体育馆,每日人流量信息被记录在这三列信息中:序号 (id)、日期 (date)、 人流量 (people)。
请编写一个查询语句,找出高峰期时段,要求连续三天及以上,并且每天人流量均不少于100。
例如,表 stadium:
+------+------------+-----------+
| id | date | people |
+------+------------+-----------+
| 1 | 2017-01-01 | 10 |
| 2 | 2017-01-02 | 109 |
| 3 | 2017-01-03 | 150 |
| 4 | 2017-01-04 | 99 |
| 5 | 2017-01-05 | 145 |
| 6 | 2017-01-06 | 1455 |
| 7 | 2017-01-07 | 199 |
| 8 | 2017-01-08 | 188 |
+------+------------+-----------+
对于上面的示例数据,输出为:
+------+------------+-----------+
| id | date | people |
+------+------------+-----------+
| 5 | 2017-01-05 | 145 |
| 6 | 2017-01-06 | 1455 |
| 7 | 2017-01-07 | 199 |
| 8 | 2017-01-08 | 188 |
+------+------------+-----------+
Note:
每天只有一行记录,日期随着 id 的增加而增加。
一个取巧的方法:
SELECT DISTINCT s1.* FROM stadium s1, stadium s2, stadium s3
WHERE s1.people >= 100 AND s2.people >= 100 AND s3.people >= 100 AND
(
(s1.id-s2.id = 1 AND s2.id-s3.id = 1)
OR
(s2.id-s1.id=1 AND s1.id-s3.id=1)
OR
(s3.id-s2.id=1 AND s2.id-s1.id=1)
)
ORDER BY s1.id;
这个方法也不好,只是硬编码而已。如果业务要求前几十个,那么就要连接几十个了?上边的方法的本质就是表连接。
Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。
+----+-----------+-----------+---------+--------------------+----------+
| Id | Client_Id | Driver_Id | City_Id | Status |Request_at|
+----+-----------+-----------+---------+--------------------+----------+
| 1 | 1 | 10 | 1 | completed |2013-10-01|
| 2 | 2 | 11 | 1 | cancelled_by_driver|2013-10-01|
| 3 | 3 | 12 | 6 | completed |2013-10-01|
| 4 | 4 | 13 | 6 | cancelled_by_client|2013-10-01|
| 5 | 1 | 10 | 1 | completed |2013-10-02|
| 6 | 2 | 11 | 6 | completed |2013-10-02|
| 7 | 3 | 12 | 6 | completed |2013-10-02|
| 8 | 2 | 12 | 12 | completed |2013-10-03|
| 9 | 3 | 10 | 12 | completed |2013-10-03|
| 10 | 4 | 13 | 12 | cancelled_by_driver|2013-10-03|
+----+-----------+-----------+---------+--------------------+----------+
Users 表存所有用户。每个用户有唯一键 Users_Id。Banned 表示这个用户是否被禁止,Role 则是一个表示(‘client’, ‘driver’, ‘partner’)的枚举类型。
+----------+--------+--------+
| Users_Id | Banned | Role |
+----------+--------+--------+
| 1 | No | client |
| 2 | Yes | client |
| 3 | No | client |
| 4 | No | client |
| 10 | No | driver |
| 11 | No | driver |
| 12 | No | driver |
| 13 | No | driver |
+----------+--------+--------+
写一段 SQL 语句查出 2013年10月1日 至 2013年10月3日 期间非禁止用户的取消率。基于上表,你的 SQL 语句应返回如下结果,取消率(Cancellation Rate)保留两位小数。
+------------+-------------------+
| Day | Cancellation Rate |
+------------+-------------------+
| 2013-10-01 | 0.33 |
| 2013-10-02 | 0.00 |
| 2013-10-03 | 0.50 |
+------------+-------------------+
这个问题也是分组问题,就是按照日期进行分组,然后统计每一天的取消的数目,如果不算被banned的用户,其实就是统计一张表里边的信息,按照日期分组,而后算出这一天不是completed的计数和总的计数相除即可。不过加上了banned的表,但是思路还是不变的。
SELECT t1.Request_at AS 'Day',
ROUND(COUNT(DISTINCT IF(t1.Status!='completed' AND u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)) / COUNT(DISTINCT IF(u1.Banned='No' AND u2.Banned='No', t1.Id, NULL)), 2) AS 'Cancellation Rate' FROM Trips t1
LEFT JOIN Users u1
ON t1.Client_id=u1.Users_id
LEFT JOIN Users u2
ON t1.Driver_id=u2.Users_id
WHERE t1.Request_at BETWEEN '2013-10-01' AND '2013-10-03'
GROUP BY t1.Request_at;
在做题的时候,发现自己对于SQL的很多细节都不知道,上边的一些例题权当总结,以后多看看,让自己了解SQL的关键点,包括表连接,分组,一些内置函数等。