新闻中心 产品中心 解决方案 成功案例 服务支持 招贤纳士 关于我们
大数据
建设背景
建设目标
建设内容
建设原则
技术路线
建设方案
  首页 >> 解决方案 >> 技术路线
  技术路线
 

     1、采用多种技术组合的方式存储管理数据

  根据数据类型、数据规模、应用方式的不同,采用多种数据存储和数据库管理技术混搭的方式进行数据资源体系存储管理层建设。在数据库管理软件方面,是关系型数据库、列式数据库和内存数据库的混搭;在存储方式方面,是集中式存储和分布式存储的混搭。
  关系型数据库一般用于格式化基础数据存放,并用于实现数据标准化处理、数据质量分析、监控与修复工作,以及数据量较小、实时性要求高的数据分析处理。列式数据库一般用于海量格式化数据的存放,利用其支持分布式存储和并行计算的特性支撑海量数据的查询、统计和分析处理等工作。内存数据库一般专门用于海量数据的实时分析工作。
  关系型数据库一般采用集中式存储方式,列式数据库一般采用分布式存储方式。此外,非格式化数据优先存放在分布式存储文件系统中。

  2、采用ETL工具进行数据集成

  采用ETL数据集成工具,对大量分散异构的资源进行抽取、清洗、转换,从各个数据源抽取数据,装载到中,实现数据集成。同时,利用ETL工具再次从基础数据资源库中抽取数据,经清洗、转换后装载至分布式存储及列式数据库Hbase中。

  3、生产库无干扰数据采集技术

  由于基于触发器、时间戳方式的数据采集方式可能会生产库造成影响,因此可选用基于数据库日志的数据同步技术,通过对日志文件的分析,将源数据库中的数据变化以事务为单位,实时同步到目标数据库中,从而实现对源数据库数据的同步无干扰采集,丰富采集手段,配合数据集成工具实现数据集成工作。

  4、基于SOA架构,构建应用平台

  以面向服务设计的思路,合理规划服务,构建应用平台。同时,可对外请求服务、爆发服务、订阅/发布等服务方式,支持主流接口协议,可提供关联查询、核查比对、碰撞分析、数据统计等多种数据服务。

  5、基于分布式计算的大数据应用

  采用分布式并行计算处理技术实现海量数据的存储管理和分析处理。依托Hadoop分布式并行计算框架,采用HDFS实现数据存储与管理,使用大数据主流计算框架实现数据高速分析应用,使用HBase索引实现数据高并发高速查询。

  6、SQL支持

  为方便应用开发,降低应用开发难度,提高数据平台易用性,需要提供SQL支持,从而降低学习成本与传统应用迁移成本。SQL支持必须满足以下功能:

    支持SQL 2003标准语法。

    支持编码器对语法进行改写优化,制订最优的执行方式。

    支持以向量化内存计算,实现高速海量数据分析。

 
 
 热点新闻
 
 联系我们
010—58714788—8001
service@bjsuccessive.com
北京索克赛思科技有限公司 版权所有 京ICP备06051017号 京公网安备110108003591号