0%

mysql-table-design

摘抄自《阿里巴巴 Java 开发手册》

建表规约

  1. 【强制】表达是与否概念的字段,必须使用 is_xxx 的方式命名,数据类型是 unsigned tinyint( 1表示是,0表示否)。

    说明:任何字段如果为非负数,必须是unsigned。

    正例: 表达逻辑删除的字段名 is_deleted 1 表示删除, 0 表示未删除。

  2. 【强制】表名、字段名必须使用小写字母或数字,禁止出现数字开头,禁止两个下划线中间只出现数字。数据库字段名的修改代价很大,因为无法进行预发布,所以字段名称需要慎重考虑。

说明: MySQL 在 Windows 下不区分大小写,但在 Linux 下默认是区分大小写。因此,数据库名、表名、字段名,都不允许出现任何大写字母,避免节外生枝。
正例:aliyun_admin,rdc_config,level3_name

反例:AliyunAdmin,rdcConfig,level_3_name

  1. 【强制】每张表必须设置一个主键id,且这个主键 id 使用自增主键(在满足需要的情况下尽量短),但是业务一定不能依赖这个自增的特性。

    说明:

    • 由于 InnoDB 组织数据的方式决定了需要有一个主键,而且若是这个主键 id 是单调递增的可以有效提高插入的性能,避免过多的页分裂、减少表碎片提高空间的使用率。
    • 而在分库分表环境下,则需要统一来分配各个表中的主键值,从而避免整个逻辑表中主键重复。
    • 在mysql中有多种可能性将导致自增主键出现“空洞”,例如事务回滚、批量“预申请”、唯一键冲突等等原因
  2. 【强制】表名不使用复数名词。

    说明:表名应该仅仅表示表里面的实体内容,不应该表示实体数量,对应于 DO 类名也是单数形式,符合表达习惯。

  3. 【强制】创建库、表时必须使用 utf8mb4 字符集,排序规则为 utf8mb4_general_ci

    说明:

    • 在 MySQL 中的 UTF-8 并非“真正的 UTF-8”,它的最大长度仅为三个字节,而 utf8mb4” 才是真正的“UTF-8”,四个字节能够正确存储Emoji符号。
    • 避免了当关联查询时,因为字符集的不相同,导致无法使用 Index Nested-Loop Join 算法来优化查询,效率极低
  4. 【强制】禁用保留字,如 desc、range、match、delayed 等,请参考 MySQL 官方保留字。

  5. 【强制】主键索引名为 pk_字段名;唯一索引名为 uk_字段名;普通索引名则为 idx_字段名

    说明:pk_ 即 primary key;uk_ 即 unique key;idx_ 即 index 的简称。

  6. 【强制】小数类型为 decimal,禁止使用 float 和 double。

    说明:float 和 double 在存储的时候,存在精度损失的问题,很可能在值的比较时,得到不正确的结果。如果存储的数据范围超过 decimal 的范围,建议将数据拆成整数和小数分开存储。

  7. 【强制】如果存储的字符串长度几乎相等,使用char定长字符串类型。

  8. 【强制】varchar是可变长字符串,不预先分配存储空间,长度不要超过5000,如果存储长度大于此值,定义字段类型为 text,独立出来一张表,用主键来对应,避免影响其它字段索引效率。

  9. 【强制】表必备三字段:id, gmt_create, gmt_modified。

说明: 其中 id 必为主键,类型为 unsigned bigint、单表时自增、步长为 1 。 gmt_create, gmt_modified 的类型均为 date_time 类型,前者现在时表示主动创建,后者过去分词表示被动更新。

  1. 【推荐】表的命名最好是加上“业务名称_表的作用”。 正例:alipay_task / force_project / trade_config

  2. 【推荐】库名与应用名称尽量一致。

  3. 【推荐】如果修改字段含义或对字段表示的状态追加时,需要及时更新字段注释。

  4. 【推荐】字段允许适当冗余,以提高查询性能,但必须考虑数据一致。

    冗余字段应遵循: 1)不是频繁修改的字段。 2)不是varchar超长字段,更不能是text字段。

    正例:商品类目名称使用频率高,字段长度短,名称基本一成不变,可在相关联的表中冗余存储类目名称,避免关联查询。

  5. 【推荐】单表行数超过500万行或者单表容量超过2GB,才推荐进行分库分表。

    说明:如果预计三年后的数据量根本达不到这个级别,请不要在创建表时就分库分表。

  6. 【参考】合适的字符存储长度,不但节约数据库表空间、节约索引存储,更重要的是提升检索速度。

    正例:如下表,其中无符号值可以避免误存负数,且扩大了表示范围。

    对象 年龄区间 类型 字节 表示范围
    150岁之内 tinyint 1 无符号值:0到255
    数百岁 smallint 2 无符号值:0到65535
    恐龙化石 数千万年 unsigned int 4 无符号值:0到约42.9亿
    太阳 约50亿年 unsigned bigint 8 无符号值:0到约10的19次方