高级查询及SQL效率优化

四月 10, 2011

#wiki

　　今天根据经验总结一些高级查询(SQL)及SQL效率优化，有时同样能达到查询效果，但也许系统所耗费的资源可能有很大差异，由于SQL书写的影响，同一功能同一性能不同写法SQL的影响。下面是sql语句优化的一些提示要点，主要讲述的是操作符优化过程。

IN 操作符
用IN写出来的SQL的优点是比较容易写及清晰易懂，这比较适合现代软件开发的风格。
但是用IN的SQL性能总是比较低的，从sql执行的步骤来分析用IN的SQL与不用IN的SQL有以下区别：
     sql试图将其转换成多个表的连接，如果转换不成功则先执行IN里面的子查询，再查询外层的表记录，如果转换成功则直接采用多个表的连接方式查询。由此可见用IN的SQL至少多了一个转换的过程。一般的SQL都可以转换成功，但对于含有分组统计等方面的SQL就不能转换了。
     推荐方案：在业务密集的SQL当中尽量不采用IN操作符。
     举例说明：07-11-05 zhoz更新，转载请注明出处：www.zhoz.com
     $id_array = (1,2,3,2,2,4,5,6,7); // 这个id假设从其它表中抽出来的数据
     方法1：~~$sql = "select * from zhoz_dat where id in" . $id_array;~~ 效率低，而且还会有重复操作。
     方法2：

     // 去掉重复的
     $id_array_uniqe = array_uniqe($id_array);
     $or_count = 1;
     foreach ($id_array_uniqe as $id_tmp) {
                if($or_count < $count) {
                    $sql_id .= "id = " . $id_tmp . " or ";
                } else {
                    $sql_id .= "id = " . $id_tmp;
     }
             $or_count++;
     }
     $sql = "select id from zhoz_dat where (" . $sql_id . ")";
     方法3：
     在抽id前就用distinct(id)过滤掉重复的id，数据库的执行效率要高于程序代码。这样就可以继续用2方法：

     $or_count = 1;
     foreach ($id_array_uniqe as $id_tmp) {
                if($or_count < $count) {
                    $sql_id .= "id = " . $id_tmp . " or ";
                } else {
                    $sql_id .= "id = " . $id_tmp;
     }
             $or_count++;
     }
     $sql = "select id from zhoz_dat where (" . $sql_id . ")";

NOT IN操作符
     此操作是强烈推荐不使用，因为它不能应用表的索引。
     推荐方案：用NOT EXISTS 或（外连接+判断为空）方案代替

<> 操作符（不等于）
     不等于操作符是永远不会用到索引的，因此对它的处理只会产生全表扫描。
推荐方案：用其它相同功能的操作运算代替，如
       a<>0 改为 a>0 or a<0
     a<>’’ 改为 a>’’

IS NULL 或 IS NOT NULL操作（判断字段是否为空）
     判断字段是否为空一般是不会应用索引的，因为B树索引是不索引空值的。
     推荐方案：用其它相同功能的操作运算代替，如：
      ~~a is not null~~ 改为 a>0 或a>’’等。
     不允许字段为空，而用一个缺省值代替空值，如字段：申请中状态字段不允许为空，缺省为申请。
     建立位图索引（有分区的表不能建，位图索引比较难控制，如字段值太多索引会使性能下降，多人更新操作会增加数据块锁的现象）

> 及 < 操作符（大于或小于操作符）
     大于或小于操作符一般情况下是不用调整的，因为它有索引就会采用索引查找，但有的情况下可以对它进行优化，如一个表有100万记录，一个数值型字段A，30 万记录的A=0，30万记录的A=1，39万记录的A=2，1万记录的A=3。那么执行A>2与A>=3的效果就有很大的区别了，因为 A>2时sql会先找出为2的记录索引再进行比较，而A>=3时sql则直接找到=3的记录索引。

LIKE操作符
LIKE 操作符可以应用通配符查询，里面的通配符组合可能达到几乎是任意的查询，但是如果用得不好则会产生性能上的问题，如LIKE ‘%5400%’ 这种查询不会引用索引，而LIKE ‘X5400%’则会引用范围索引。
一个实际例子：用YW_YHJBQK表中营业编号后面的户标识号可来查询营业编号 YY_BH LIKE ‘%5400%’ 这个条件会产生全表扫描，如果改成YY_BH LIKE ’X5400%’ OR YY_BH LIKE ’B5400%’ 则会利用YY_BH的索引进行两个范围的查询，性能肯定大大提高。

UNION操作符
UNION在进行表链接后会筛选掉重复的记录，所以在表链接后会对所产生的结果集进行排序运算，删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录，最常见的是过程表与历史表UNION。如：
select * from gc_dfys union select * from ls_jg_dfys
这个SQL在运行时先取出两个表的结果，再用排序空间进行排序删除重复的记录，最后返回结果集，如果表数据量大的话可能会导致用磁盘进行排序。

推荐方案：采用UNION ALL操作符替代UNION，因为UNION ALL操作只是简单的将两个结果合并后就返回。
select * from gc_dfys union all select * from ls_jg_dfys

举例说明，SQL文对效率的影响：
A程序员写的为
      Select * from zl_yhjbqk
B程序员写的为
       Select * from dlyx.zl_yhjbqk（带表所有者的前缀）
C程序员写的为
       Select * from DLYX.ZLYHJBQK（大写表名）
D程序员写的为
       Select * from DLYX.ZLYHJBQK（中间多了空格）

以上四个SQL在表中分析整理之后产生的结果及执行的时间是一样的，但是从ORACLE共享内存SGA的原理，可以得出ORACLE对每个SQL 都会对其进行一次分析，并且占用共享内存，如果将SQL的字符串及格式写得完全相同则ORACLE只会分析一次，共享内存也只会留下一次的分析结果，这不仅可以减少分析SQL的时间，而且可以减少共享内存重复的信息，ORACLE也可以准确统计SQL的执行频率。

汇总函数

SUM函数
AVG函数
COUNT函数
COUNT（*）函数
MAX函数
MIN函数

联接查询
通过使用联接产寻可以根据各个数据表之间的逻辑关系从2个或多个数据表中检索数据。

如何提高Select语句的效率
（1）.使用EXISTS关键字检查结果集
（2）.使用标准的连接代替嵌套查询
（3）.有效避免整表扫描

  SQL标准联接的类型

  内联接
---只产生所有表中存在匹配的记录，最常见的就是我们常用的where语句连接，两边的表返回的都是匹配的记录。
格式为：
  数据表1 INNER JOIN 数据表2 ON 联接表达式
内联接将通过使用比较运算符根据需要联接的数据表的公共的字段值来匹配二表中的记录。
例子：
   Select * From 员工数据表 INNER JOIN 项目数据表 ON 员工数据表.员工编号 = 项目数据表.负责人

外联接
是不对称连接，分为左联接和右联接，应该说他们的语法都是一样的，只是一个左，一个右，结果是：相匹配的左（右）部的表的记录都出现在结果集中，而另一部分（满足前一条原则下）有匹配显示记录，无匹配则是显示NULL。可以用where过滤不是null的或是null的，相当于只满足一边返回匹配值。

外联接包括3种左向外联接、右向外联接、完整外部联接

左向外联接的格式为：
数据表1 LEFT JOIN 数据表2 ON 连接表达式 <==>数据表1 LEFT OUTER JOIN 数据表2 ON 连接表达式

功能：使用左向联接进行查询的结果集将包括数据表1中所有的记录,而仅仅是连接字段所匹配的记录,那么结果集想对应的有关数据表2的所有字段将为空值。

.例如下面将检索员工数据表中所有记录,并将项目表中显得负责人字段匹配的记录输出到结果集：

Select *
From 员工数据表 LEFT JION 项目数据表
ON 员工数据表.员工编号 =项目数据表.负责人

右向外联接格式：
数据表1 RIGHT JOIN 数据表2 ON 表达式 <==> 数据表1 RIGHT OUTER JOIN 数据表2 ON 表达式

功能：和左向外联接相反。

完整外联接格式：
数据表1 FULL JOIN 数据表2 ON 表达式 <==> 数据表1 FULL OUTER JOIN 数据表2 ON 表达式

功能：返回左表和右表中的所有行。当某行在另一个表中没有匹配行时，则另一个表的选择列表列包含空值。如果表之间有匹配行，则整个结果集行包含基表的数据值。。

交叉联接格式为：
数据表1 CROSS JOIN 数据表2

功能：如果在Select语句中没有使用Where子句,那么交叉联接将返回数据表1和数据表2的卡笛尔积，即交叉联接返回数据表1中的所有记录,以及数据表1中所有的记录与数据表2中所有句路的组合。结果集的记录数等于数据表1的记录。

以上几种关联，比较常用与重要，再次一起举例：
--inner join
select * from tableA a join tableB b on a.id=b.id--left outer joinselect * from tableA a left join tableB b on a.id=b.id

--rigth outer join
select * from tableA a right join tableB b on a.id=b.id

-- full outer join
select * from tableA a full join tableB b on a.id=b.id

--cross join,返回笛卡尔乘积
select * from tableA a cross join tableB

cary博客

高级查询及SQL效率优化

评论

此博客中的热门博文

选Ruby还是选Python？

RewriteCond 重写规则执行条件

轻松的事，多半是错的事