系统集成项目管理工程师(中级) · 第三版教材
第6章 数据工程
第6章「数据工程」是软考系统集成项目管理工程师(中级)第三版教材中的**新增重点章**,共 6 节 80 题。本章把"数据"作为独立工程对象,覆盖从采集到应用的完整生命周期。考点贴近实战(ETL、数据仓库、数据治理),与新版「数字中国」战略呼应。新版考生需重点关注本章。
本章小节
- 6.1数据采集和预处理ETL、数据清洗、采集方式(批/流)。
- 6.2数据存储及管理关系型 vs NoSQL、数据湖、分布式存储。
- 6.3数据治理和建模数据治理框架(DAMA-DMBOK)、概念/逻辑/物理模型。
- 6.4数据仓库和数据资产数据仓库 vs 数据湖、OLAP/OLTP、数据资产化。
- 6.5数据分析及应用BI、数据挖掘、机器学习、可视化。
- 6.6数据脱敏和分类分级脱敏算法、《数据安全法》分级分类要求。
重点速览
ETL vs ELT
ETL:抽取→转换→加载(传统数仓);ELT:抽取→加载→转换(数据湖,先入湖再处理)。Cloud-native 倾向 ELT。
DAMA-DMBOK 数据治理 10 大职能
数据架构、数据建模、数据存储与操作、数据安全、数据集成、文档与内容、参考与主数据、数据仓库与 BI、元数据、数据质量。
数据仓库 vs 数据湖
数据仓库:结构化、Schema-on-Write、面向分析、贵但快;数据湖:多种格式、Schema-on-Read、面向探索、便宜但需要数据工程能力。
OLTP vs OLAP
OLTP:在线事务处理(增删改),小事务高频;OLAP:在线分析处理,大查询低频。一个面向操作型,一个面向决策。
数据分类分级 4 级
《数据安全法》:一般数据、重要数据、核心数据;还有「个人信息」+「敏感个人信息」单独划分。
记忆口诀
数据仓库特征
面向主题、集成、相对稳定、反映历史变化(主 · 集 · 稳 · 史)
ETL 三步
Extract(抽)· Transform(变)· Load(载)—— E→T→L
真题考点提示
本章 80 题中,6.3 数据治理和 6.4 数据仓库各占约 20 题。新版新增内容多,2024 年首次大量出题,考点偏概念识记。6.6 数据脱敏分级分类与《数据安全法》合规挂钩,是社会热点考点。
准备好检验本章了吗?
注册或登录后免费练习,所有题目附通俗易懂解析。
免费注册,开始练习