医药商业大数据分析平台--大数据仓库
随着近年来大数据技术的不断发展和成熟,大数据对各行各业都产生了极大的推动作用,基于以上原因,我公司结合医药商业分析的业务,推出了医药商业公司大数据分析平台,该平台是一款专为医药行业商业公司打造的企业级数据分析软件,旨在帮助企业构建数据仓库,有效地组织和整合大量业务数据,通过多种形式直观的数据报表,为企业高层分析决策、战略调整提供支持;同时,为企业一线员工提供更快、更好、更便捷的服务,进而为企业创造更多价值。
专业术语
1 | HDFS | Hadoop分布式文件存储系统、HBASE、Hive等大数据存储组件的基础 |
2 | HBASE | 大数据分布式列式存储数据库 |
3 | Hive | 大数据分布式数据仓库 |
4 | YARN | Hadoop分布式资源调度与管理系统,Spark、FLINK等大数据计算资源支持 |
5 | MapReduce | 分布式计算系统 |
6 | Spark | 分布式计算系统,支持批处理和实时处理 |
7 | FLINK | 分布式计算系统,支持批处理和实时处理,实时处理性能比较好 |
8 | ZooKeeper | 分布式协调系统,多个大数据组件依赖其实现高可用 |
9 | KYLIN | 多维OLAP分析系统,依赖于Hive、HBASE、Spark等 |
10 | ElasticSearch | 分布式搜索引擎系统 |
11 | Redis | 分布式远程字典服务,高性能键值对数据内存存储 |
12 | Kafka | 分布式消息中间件 |
大数据处理的技术架构
大数据处理通常分为批处理和实时处理两种,批处理一般依托数据仓储和OLAP分析技术,定时周期性将数据进行汇总和处理(一般是一天处理一次,适用于实时性要求不太高的大批量数据的处理);实时处理一般依托于数据实时采集工具、Kafka以及实时计算框架对数据进行实时的分析和处理(一般适用于实时性要求较高的业务,同时对系统CPU、内存、网络等资源有着较高的要求);同时,通过Presto组件集成Elastic Search或Hive可以完成高效的MPP数据仓库功能;
大数据批处理设计方案
1、通过OGG等数据实时采集组件将ERP系统业务数据发送到消息中间件Kafka中;
2、编写大数据Spark程序将Kafka中的数据存储到大数据列式数据库HBASE中;
3、编写大数据Spark代码将HBASE中的数据清洗、转换、加载到数据仓储Hive;
4、将数据仓储Hive中的原始数据按业务需求进行数据建模;
5、将Hive中建模好的数据加载到大数据OLAP组件KYLIN中,按照要求进行KYLIN的Model和Cube设计;
6、触发KYLIN Cube的构建,通过Spark、FLINK或者MapReduce计算引擎,完成多维立方体Cube的分层构建(即预计算),并将预计算的结果存储到HBASE中;
7、WEB报表项目通过JDBC方式使用SQL访问KYLIN服务进行业务数据的聚合查询,最终通过ECharts或帆软报表渲染成易用的饼图、柱状图、折线图等等各种报表。
大数据实时处理设计方案
1、通过OGG等数据实时采集组件将ERP系统业务数据发送到消息中间件Kafka中;
2、编写大数据Spark程序将Kafka中的数据存储到大数据列式数据库HBASE中;
3、通过FLINK代码将实时性要求较高的业务(实时大屏展示的当天订单销售总额、销售毛利总额、销售订单数量、采购总额等等信息)进行实时计算,并将计算结果按约定存储到REDIS中;
4、将查询实时性要求比较高的业务表详情数据(如销售订单、销售结算单等),通过FLINK程序实时存储到Elastic Search中;
5、使用KYLIN将Kafka中的JSON消息按照业务将Model和Cube设计好,通过KYLIN Real-Time直接将Kafka中的消息实时按照Cube进行OLAP预计算,KYLIN Real-Time可以通过JDBC接口提供实时的查询;
6、WEB报表系统通过REDIS、Elastic Search-Presto和KYLIN JDBC完成相关业务的查询;
大数据MPP数仓设计方案
1、通过OGG等数据实时采集组件将ERP系统业务数据发送到消息中间件Kafka中;
2、编写大数据FLINK程序将Kafka中的数据存储到大数据Elastic Search中;
3、编写大数据Spark程序将Kafka中的数据存储到大数据列式数据库HBASE中;
4、将HBASE中的数据通过配置映射到Hive表中(Hive表保持原来Oracle的表结构)
5、通过Presto组件配置Elastic Search或者Hive相关的数据,实现高性能MPP的多表关联、统计汇总等相关查询功能;
6、WEB报表系统通过Presto JDBC完成相关业务的查询和展示工作;
系统特性及相关大数据技术组件按功能分类