求各位大佬给些报表优化的思路?

CREATE TABLE `xx_table1` (
  `id` bigint NOT NULL,
  `code` varchar(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT '' COMMENT '编号',
  `full_name` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT '' COMMENT '姓名',
  `gender` tinyint NOT NULL DEFAULT '0' COMMENT '性别',
  `age` smallint DEFAULT '0' COMMENT '年龄',
  `idcard` varchar(33) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT '' COMMENT '身份证号',
  `resident_address` varchar(1000) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '常驻地址',
  `resident_address_code` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '常驻地址行政编码',
  `registered_address` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '户籍地址',
  `registered_address_code` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '户籍地址行政编码',
  `birthday` date DEFAULT '0000-00-00' COMMENT '生日',
  `dead_date` datetime DEFAULT NULL COMMENT '死亡日期',
  `dead_place_code` bigint NOT NULL DEFAULT '0' COMMENT '死亡地点',
  `family_name` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '家属姓名',
  `family_tel` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '家属联系电话',
  `created_at` datetime DEFAULT NULL COMMENT '创建时间',
  `created_by` bigint NOT NULL COMMENT '创建人',
  `is_audit` tinyint NOT NULL DEFAULT '1' COMMENT '是否审核',
  `audit_by` bigint DEFAULT NULL COMMENT '审核人',
  `audit_at` datetime DEFAULT NULL COMMENT '审核时间',
  `year` int NOT NULL DEFAULT '0' COMMENT '年份',
  `item_id` int NOT NULL DEFAULT '0' COMMENT '项目 id',
  `area_code` bigint DEFAULT '0' COMMENT '地区代码',
  PRIMARY KEY (`id`) USING BTREE,
  KEY `p_fi_idx` (`full_name`,`idcard`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci ROW_FORMAT=DYNAMIC COMMENT='XX 表';

索引还没加

数据量大于 100W!

想到了把数据跑成单表，但是没做过，不知道要怎么写，不知道单表要怎么建，求大老指点

44 条回复 • 2023-01-04 09:02:08 +08:00

ktqFDx9m2Bvfq3y4

2023-01-02 09:53:53 +08:00

如果是我的话，我就让客户提前建立报表（即定义每个报表的条件），然后这个数据改变后，定时后台重新统计写入报表。这样客户再进来读的是已经统计好的表，虽然有一点延迟，但考虑到这个量级的数据，有延迟并不影响。

ktqFDx9m2Bvfq3y4

2023-01-02 09:58:44 +08:00

但考虑到非必要勿增实体，能加资源解决的事情就不要搞得太麻烦。先加索引试试呗。

agui2200

2023-01-02 10:14:05 +08:00

上 clickhouse

sunmoon1983

2023-01-02 10:44:04 +08:00

@Chad0000 现在的想法就是，先把各个条件组合一下，然后用定时任务去跑

sunmoon1983

2023-01-02 10:44:20 +08:00

@agui2200 没有接触过，不太敢上呀

BugCry

2023-01-02 10:50:22 +08:00 via Android

每个指标单独成表，最后写个 view 拼到一起

c6h6benzene

2023-01-02 11:00:09 +08:00 via iPhone

一般的报表工具的话，可能都是先把底层的数据全部缓存之后（ dataset ）然后再以这个为基础去做筛选之类。如果筛选条件不固定的话，大概只能缓存整个表？

sunmoon1983

2023-01-02 11:19:56 +08:00

@c6h6benzene 现在的方案就是先把报表生成出来，然后再把整个报表缓存，但是生成的过程有点慢，客户无法忍受

ktqFDx9m2Bvfq3y4

2023-01-02 11:27:23 +08:00

@sunmoon1983 #4
我之前优化的一种方案是将允许统计的条件提前算出来，形成中间表。比如：
主键：[性别]_[出生年月]_[省市]_[死亡年月]，再加一个数量字段。这样所有查询都可以在这个中间表进行，你再 Sum 一下。但这样做还是改逻辑，所以不如本地对比一下加索引后的影响，如果现有数据库资源可承受，就没必要改代码了。

yasea

2023-01-02 11:27:44 +08:00

这种就只有用空间换时间，每天、每小时跑批，根据所有需要使用的的维度（过滤条件）分组将相应指标定时写入报表即可。如果数据量大，可以再做索引、分区存储、分表、缓存等优化。

F281M6Dh8DXpD1g2

2023-01-02 11:31:39 +08:00 via iPhone

除了 mysql 一百万数据都不是啥问题

colvv

2023-01-02 11:54:56 +08:00

换 clickhouse

sunmoon1983

2023-01-02 13:19:01 +08:00

@colvv 没有接触过，不太敢换呀

sunmoon1983

2023-01-02 13:23:34 +08:00

@yasea 嗯，现在想的就是要空间换时间，但是我一直没想明白，要怎么跑数据，是要把我每种条件都组合一次，跑一次吗？比如，上面图中的条件有户籍，性别，年份，那个，我就要`户籍+男+2022`跑一次，下面再用`户籍+女+2022`跑一次，然后`户籍+性别（男、女）+每一年（从今年到 2010 年）`都跑一次存到库中，是这样吗？后面还要加上地区，好多条件呀，不敢想象

wxf666

2023-01-02 13:34:24 +08:00

@sunmoon1983 你查询的 SQL 是怎么写的呢？

agui2200

2023-01-02 13:38:43 +08:00

@sunmoon1983 ck 是最佳选择，多条件，而且支持亿级查询，而且轻量运维小，统计上比 mysql 强多了，你可以写个定时任务把所有表拍平扔 ck ，如果担心用不好，就做好回退，当 ck 不可用的时候用 mysql 强查就是了

jones2000

2023-01-02 13:46:32 +08:00

数据放入内存，自己统计计算不就可以。才几百万的数据，都是数值计算，也不涉及到字符串检索。

wxf666

2023-01-02 13:50:44 +08:00

@yasea @agui2200 能不能抽出可能用到的字段，建个小小的覆盖索引呢？

比如，（行政编码, 性别, 年份, 年龄, 项目 ID ），看起来一行只需 5+10+1+2+1+4+8 = 31 字节，100W 行索引只需 30 MB

如果不指定『当前地区』，扫全部索引也能满足各种查询需求。
如果指定了『当前地区』，可能只需扫几百上千行，几百 KB 的索引即可统计出来。

wxf666

2023-01-02 13:52:51 +08:00

@jones2000 我也感觉是，就算一行需要 1KB ，全部放进内存也才不到 1GB ，for 一百万次实际就连 Python 都不会很慢

如果只挑可能用到的字段出来，一百万行可能也只用到几十 MB 内存即可

14104chk

2023-01-02 14:08:47 +08:00

@sunmoon1983 可以只用一个 select * from table ，然后用代码生成粒度比较细的统计数据存在缓存或者内存表里面，例如分成户籍、性别、年份。如果只查 2010 年的数据，没有户籍性别限制，就把 2010 年的各种户籍或者性别的数据加起来

dode

2023-01-02 14:23:04 +08:00 via Android

这是疫情的系统啊😯

nandaye

2023-01-02 16:14:57 +08:00 via iPhone

首先看你指标是可加指标还是不可加指标，不可加基本只能加资源缓存之类的方案；可加指标就按筛选条件最小粒度聚合一次，查询时用筛选条件基于聚合数据做二次聚合

git00ll

2023-01-02 16:35:28 +08:00

一百万而已，后期预期会增加到多少。一百万的话遍历一遍在代码里也把报表弄出来了

c6h6benzene

2023-01-02 16:52:58 +08:00

@sunmoon1983 其实我想说的是你后端先把最小粒度的全部数据缓存起来，把汇总之类的维度计算全部放在前端完成。

报表的前端呈现是自己的写的吗，还是要利用什么其他现有的报表工具？

另外微软那一套 BI 架构的话，有个东西叫 Cube （多维数据集），就是用来处理这种会有多个维度数据需求的应用的。

sunmoon1983

2023-01-02 17:21:18 +08:00

@c6h6benzene 前端自己写的，`最小粒度的全部数据` 这个要怎么解释？现在就是这里不太明白，第一次做报表，不太懂

jiangwentx

2023-01-02 19:19:58 +08:00

1 楼说的的确是个思路，但客户想要看各种组合，显然穷举很慢很累，而且一直跟着屁股后面改代码不现实，elasticsearch 聚合出所有情况，至于客户要看完整报表，那就用定时程序查 es 的各种情况总量写入表中，然后只要查表供前端展示即可。（没人力客户没预算当我没说）

yufeng0681

2023-01-02 20:25:48 +08:00

100 万数据想办法变成 1W 级别的数据（临时表方案），基于 1W 数据做查询就快了。
做好同步操作，看甲方的要求，按天、按周同步一次；也支持手动同步。

jones2000

2023-01-02 22:06:43 +08:00

@Chad0000 就这几百 W 的数据量，买一台 20W 的物理机，直接装 mysql ，用到的数据索引建完基本就够了。要什么优化，加配置就够了。

makdon

2023-01-02 22:35:44 +08:00

之前做过类似的需求，用的 apache druid ，非常适合这种场景

redbridge

2023-01-02 22:54:19 +08:00

如果用户查询组合不复杂，而且重复性高的话，可以在用户每次调用时候把查询条件自动记下来，自动生成定时任务。当然如果用户查询情况太多了就不太适合。

yasea

2023-01-02 23:05:06 +08:00

@sunmoon1983
select
gender
,age
,year
,sum(xxx)xxx
,count(xxx)xxx
from xx_table1
group by gender,age,year
这个是一个底层的汇总表，可以直接放到内存进行查询统计，如果这个表数据量太大，可以再做切割，然后在前端做查询缓存，在生成上面这个汇总的表时候，也可以直接根据可能的查询条件将把数据生成到前端进行缓存。