数据采集
- 采集策略
- 采集工具
- 逻辑规则
采集策略——根据数据源自身数据量、更新频率、增量情况,以及上层业务场景的需要,对不同的数据源按不同的采集策略进行数据采集的操作。采集策略包括:实时数据采集、定期数据采集、触发器及不定期数据采集等。
要实现不同采集方式和采集策略,需调用不同类型数据采集工具,按实际场景进行不同类型的组合,形成数据采集工具群。
这些工具包括了ETL工具、数据同步软件、消息系统,以及其它软件等。
对原始数据按照逻辑规则进行治理,使数据满足业务场景的基础需求,是采集过程中最重要一环。
在数据采集的过程中,对数据进行验证、清洗、转换、异构整合、入库等操作,实现对数据的标准化改造、初步的质量提升,以及在存入不同类型的数据库后,实现多种形式的服务能力。
目标库
目标库是由上层业务场景决定,针对不同类型需求,需要不同的数据存储方面。实际项目落地过程中,主要是以上层业务应用系统的需求来驱动目标库的设计和数据库的组成方式。

-
传统关系型数据库包括了MySQL、Oracle、SqlServer、PostgreSQL等,主要面向应用类,或者用于对原始库进行完整复制。
-
Hadoop体系库包括了HDFS、Hbase、Hive、Kafka等,针对海量数据提供分布式存储,为上层数据运算框架提供存储支撑。
-
其它库如ElasticSearch、Neo4J、MongoDB、Greenplum等,在特定的场景下,实现针对性业务支撑。
数据服务
在数据采集的过程中,涉及场景需求分析、数据源现状分析、采集流程与规则设计、目标数据库建设及采集服务运维审计等多业务场景,因此在业务流程中需对数据服务进行规范化、标准化。
-
数据资产梳理服务数据源现状进行整体梳理,摸清网络环境、数据库类型、数据量、数据大小、数据类型、增量、数据关系、数据质量、数据分级分类情况等。
-
元数据服务在进行数据资产梳理过程中,对现有数据源的元数据进行梳理、整合,形成已有元数据库。综合参考行业特点,相关政策标准,制定数据资源池数据标准,形成对应的标准化元数据。
-
运维审计服务启停数据采集服务、监控服务运行状态、监控资源占用、审计各类日志、发现和处理异常问题、调试数据采集性能、核查数据采集结果。
-
基础库服务基础库中数据是直接数据源库同步的原始数据,或者对原始数据做了标准化处理的结果数据。
-
主题库服务主题库包括了实体库和业务专题库。实体库以实体对象为主,包括人、事、物等;业务专题库,是针对具体的业务场景和范围,对数据进行了一定转换、拆分、组合后,形成的一组数据库集合。
-
信息检索服务在进行数据采集、建库后,建立提供快速访问获取数据的检索服务通道。依托内存数据库、key-value数据库、全文检索数据库等数据库管理系统,提供标识号快速查询、文本模糊查询等服务。