Cracking the coding interview--Q15.3

February 16, 2013
作者:Hawstein
出处:http://hawstein.com/posts/15.3.html
声明:本文采用以下协议进行授权: 自由转载-非商用-非衍生-保持署名|Creative Commons BY-NC-ND 3.0 ,转载请注明作者及出处。

题目

原文:

What is denormalization? Explain the pros and cons.

译文:

什么是反范式?它优缺点是什么?

解答

反范式是通过增加冗余数据或数据分组来提高数据库读性能的过程。在某些情况下, 反范式有助于掩盖关系型数据库软件的低效。关系型的范式数据库即使做过优化, 也常常会带来沉重的访问负载。

数据库的范式设计会存储不同但相关的信息在不同的逻辑表, 如果这些表的存储在物理上也是分离的,那么从几个表中完成数据库的查询可能就会很慢 (比如JOIN操作)。如果JOIN操作的表很多,那么可能会慢得离谱。 有两个办法可以解决这个问题。首选的方法是使逻辑上的设计遵循范式, 但允许数据库管理系统(DBMS)在磁盘上存储额外的冗余信息来加快查询响应。 在这种情况下,DBMS还要保证冗余副本与原始数据的一致性。 这种方法通常在SQL中以索引视图(微软的SQL Server)或物化视图(Oracle)实现。 视图将信息表示为方便查询的格式,索引确保视图上的查询进行了优化。

更常见的做法是对数据做反范式设计。这种方法同样能提高查询响应速度, 但此时不再是DBMS而是数据库设计者去保证数据的一致性。 数据库设计者们通过在数据库中创建规则来保证数据的一致性,这些规则叫约束。 这样一来,数据库设计的逻辑复杂度就增加了,同时额外约束的复杂度也增加了, 这使该方法变得危险。此外,“约束”在加快读操作(SELECT)的同时,减慢了写操作 (INSERT, UPDATE和DELETE)。这意味着一个反范式设计的数据库, 可能比它的范式版本有着更差的写性能。

反范式数据模型与没有范式化的数据模型不同。 只有在范式化已经达到一定的满意水平并且所需的约束和规则都已经建立起来, 才进行反范式化。例如,所有的关系都属于第三范式, 连接的关系和多值依赖得到了妥善处理。

参考链接:http://en.wikipedia.org/wiki/Denormalization

全书题解目录:

Cracking the coding interview–问题与解答

全书的C++代码托管在Github上:

https://github.com/Hawstein/cracking-the-coding-interview