当前位置: 首页>> >>正文
企业级大数据分析平台如何设计
2015-09-07 15:00:00 作者:网络 浏览次数:1895 标签: 大数据分析工具

企业级大数据平台如何设计

传统企业的OLAP几乎都是基于关系型数据库,在面临“大数据”分析瓶颈,甚至实时数据分析的挑战时,在架构上如何应对?本文试拟出几个大数据OLAP平台的设计要点,意在抛砖引玉。

突破设计原则

建设企业的大数据管理平台(Big Data Management Platform),第一个面临的挑战来自历史数据结构,以及企业现有的数据库设计人员的观念、原则。数据关系、ACID在关系数据库几十年的统治时期是久得人心,不少开发人员都有过为文档、图片设计数据表,或将文档、图片序列化为二进制文件存入关系数据库的经历。在BDMP之上,我们需要对多种不同的格式的数据进行混合存储,这就必须意识到曾经的原则已经不再适用——One size dosen’t fit all,新的原则——One size fits a bunch.

以下是我列出的一些NoSQL数据库在设计上的模式:

文档数据库:数据结构是类JSON,可以使用嵌入(Embed)或文档引用(Reference)的方式来为两个不同的文档对象建立关系;

列簇数据库:基于查询进行设计,有宽行(Wild Rows)和窄行(Skinny Rows)的设计决策;

索引数据库:基于搜索进行设计,在设计时需要考虑对对每个字段内容的处理(Analysis)。 

搜索和查询的区别在于,对返回内容的排序,搜索引擎侧重于文本分析和关键字权重的处理上,而查询通常只是对数据进行单列或多列排序返回即可。

 

数据存储的二八原则

 

不少企业在解决海量数据存储的问题上,要么是把关系数据库全部往Hadoop上一导入,要么是把以前的非结构化数据如日志、点击流往NoSQL数据库中写入,但最后往往发现前者还是无法解决大数据分析的性能瓶颈,后者也无法回答数据如何发挥业务价值的问题。

 

在数据的价值和使用上,其实也存在着二八原则:

 

20%的数据发挥着80%的业务价值;

 

80%的数据请求只针对20%的数据。

目前来看,不管是数据存储处理、分析还是挖掘,最完整和成熟的生态圈还是基于关系型数据库,比如报表、联机分析等工具;另外就是数据分析人员更偏重于查询分析语言如SQL、R、Python数据分析包而不是编程语言。

企业大数据平台建设的二八原则是,将20%最有价值的数据——以结构化的形式存储在关系型数据库中供业务人员进行查询和分析;而将80%的数据——以非结构化、原始形式存储在相对廉价的Hadoop等平台上,供有一定数据挖掘技术的数据分析师或数据工程师进行下一步数据处理。经过加工的数据可以以数据集市或数据模型的形式存储在NoSQL数据库中,这也是后面要讲到的“离线”与“在线”数据。

 

理解企业的数据处理需求

 

数据库到数据仓库,是事务型数据到分析型数据的转变,分析型数据需要包括的是:分析的主题、数据的维度和层次,以及数据的历史变化等等。而对大数据平台来说,对分析的需求会更细,包括:

查询:快速响应组合条件查询、模糊查询、标签

搜索:包括对非结构化文档的搜索、返回结果的排序

统计:实时反映变化,如电商平台的在线销售订单与发货计算出的库存显示

挖掘:支持挖掘算法、机器学习的训练集

针对不同的数据处理需求,可能需要设计不同的数据存储,还需要考虑如何快速地将数据复制到对应的存储点并进行合适的结构转换,以供分析人员快速响应业务的需求。

 

离线数据与在线数据

根据不同的企业业务,对“离线”的定义其实不一样,在这里离线数据特指在业务场景中适用于“历史数据”的部分。常见的历史数据查询分析一般来自于特定时间段,设计上需要考虑的是将数据存入历史库中时,建立时间索引。另一种情况是某种业务问题的定位或分析,在数据量巨大的情况下,基于Hadoop或Spark等框架编写分析算法并直接在平台上运行,可以大大节约数据导出导入、格式转换与各种分析工具对接的时间。

在线数据处理按照存储和分析的先后顺序,可分为批处理(先存储后分析)和流处理(先分析后存储)两类。Cassandra数据库的设计采用上数据追加写入模式,可以支持实时批处理;流式计算平台则有Apache Storm、Yahoo S4等开源框架,商业平台有Amazon Kenisis(部署在云端)。企业的实时分析需求往往有特定的应用场景,需要对业务和现行系统有深入的理解才能设计出一个合理的架构。

 相关推荐:

如何打造企业的大数据“专车”?


(部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。电话:4006770986  邮箱:zhangming[at]eefung.com负责人:张明)

热门文章
文章推荐
舆情监测关注问题
标签云 换一换
舆论风险防范 热点监测 舆论监测软件 文本识别 深度学习算法 NLP 机器学习 网络在线教学舆情 抗击疫情 疫情舆情分析 舆情工作总结 舆论分析 舆情公关 财经金融舆情监测 舆情事件 涉腐舆情 舆情案例 舆情系统 虐童事件 免费舆情监测软件 反转新闻 免费大数据平台有哪些 在线舆情监测 舆情监测哪家好 舆情监测方法 舆情监测报价 舆情网 做好舆情监控 负面监控软件 网红 微舆情 微博传播分析 舆情监测工具 传播路径分析 网红直播 舆情预警系统 近期舆情 手机舆情监测 全网舆情监测 新浪舆情 舆情搜索 网络热点事件 新华舆情 2019网络热词 网络流行语 在线监测软件 大数据分析工具 百度舆情监测 舆情监控前几大公司 数据分析软件有哪些 企业危机管理 315 网络舆情危机 网络舆情监测公司 中国食品药品安全舆情事件案例 社交新全媒体监测系统工具平台公司 舆情监测目的 网信办信息汇总 网络舆情信息简报 舆情监测是什么工作 危机公关 政府舆情 舆情监测预警 舆情监测解决方案 互联网舆情监控系统 网络舆论监测 网络舆情分析系统 互联网舆情分析 舆情是什么意思 德云社 网络舆论分析 医美整形舆情 大数据舆情监测案例 互联网舆情监测平台 政府舆情监测系统 互联网舆情监测系统哪家好 网络社会热点舆情分析系统 舆情信息收集 假期舆情 媒体监测 数据监测 谣言传播 维稳舆情 新闻舆情 舆情查询 舆情预警 5g舆情 网络热词 地方舆情 社会事件舆情分析 微博数据分析 社区舆情 地震舆情 民生舆情 舆情风险监测 高考舆情 政府舆情监测 舆情监测方案 舆情案例分析 网红舆情 舆情监测公司 2019舆情热点 舆情监测软件 舆情监测 社会舆论热点 犯罪舆情 科技舆情 股票舆情 月度舆情分析 消防舆情 舆情信息分析 航空舆情 微信舆情监测 民航舆情 舆情数据分析 消费舆情 环境舆情 人物舆情 公益舆情 食品舆情 新媒体舆情 新媒体舆情监测 感动中国 学校舆情 舆情监测平台 大数据舆情 大数据舆情分析 影视舆情 舆论监督 2019舆情 网络舆情监测 2018舆情事件盘点 2018舆情报告 舆情监测服务商 免费舆情监测系统 舆情报告 负面舆情 舆情分析 舆情研判 舆论监测 校园舆情 舆情热点事件 公共事件舆情 雾霾舆情 政务抖音总结 两个舆论场 官民舆论场 蚁坊软件 高校舆情 港澳台舆情 媒体舆情 涉军舆情 涉法舆情 拆迁舆情 网络舆情 舆情反转 旅游舆情 反腐舆情 海外舆情 信息惠民 灾害舆情 应急管理 智慧城市 体育舆情 景区舆情 媒体舆论 娱乐舆情 检察舆情 舆情管理 监察院舆情 政务舆情 税务舆情 涉外舆情 强拆舆情 司法舆情 舆情研究 交通舆情 企业舆情 法院舆情 舆情指数 政策舆情 舆情汇总 会议舆情 医疗舆情 环保舆情 涉警舆情 明星舆情 社会舆情 教育舆情