数据集成解决方案
通过定制化策略,将分散在不同网络、不同位置、不同存储类型和形态的数据源中的数据,采集或同步到一个或多个目标数据库
数据采集
  • 采集策略
  • 采集工具
  • 逻辑规则
采集策略——根据数据源自身数据量、更新频率、增量情况,以及上层业务场景的需要,对不同的数据源按不同的采集策略进行数据采集的操作。采集策略包括:实时数据采集、定期数据采集、触发器及不定期数据采集等。
要实现不同采集方式和采集策略,需调用不同类型数据采集工具,按实际场景进行不同类型的组合,形成数据采集工具群。 这些工具包括了ETL工具、数据同步软件、消息系统,以及其它软件等。
对原始数据按照逻辑规则进行治理,使数据满足业务场景的基础需求,是采集过程中最重要一环。 在数据采集的过程中,对数据进行验证、清洗、转换、异构整合、入库等操作,实现对数据的标准化改造、初步的质量提升,以及在存入不同类型的数据库后,实现多种形式的服务能力。
目标库
目标库是由上层业务场景决定,针对不同类型需求,需要不同的数据存储方面。实际项目落地过程中,主要是以上层业务应用系统的需求来驱动目标库的设计和数据库的组成方式。
  • 传统关系型数据库
    包括了MySQL、Oracle、SqlServer、PostgreSQL等,主要面向应用类,或者用于对原始库进行完整复制。
  • Hadoop体系库
    包括了HDFS、Hbase、Hive、Kafka等,针对海量数据提供分布式存储,为上层数据运算框架提供存储支撑。
  • 其它库
    如ElasticSearch、Neo4J、MongoDB、Greenplum等,在特定的场景下,实现针对性业务支撑。
数据服务
在数据采集的过程中,涉及场景需求分析、数据源现状分析、采集流程与规则设计、目标数据库建设及采集服务运维审计等多业务场景,因此在业务流程中需对数据服务进行规范化、标准化。
Hello,Future
你好,未来 _
点击体验,开启级数字化之旅 联系我们