一、多维数据立方体模型及其基于关系的实现(论文文献综述)
龙苏岩,盛祥祥,周天翔,王一凡,许玉洁[1](2021)在《基于统一数据模型的电力现货市场清算方法及其应用》文中研究说明电力现货市场下的数据清算具有数据规模大、业务处理复杂、时效性要求高等特征,为解决现货市场清算系统面临的突出问题,文中提出了基于通用结算数据模型的清算方法。通过建立多维立方体数据模型,实现复杂维度数据的统一建模,再进一步建立算子库,实现模型之间的转换和清算的灵活计算。最后,建立列式数据仓,通过列式计算与列式对比,实现电力交易的高性能清算。根据所提方法研发的软件已应用于省级现货市场试点单位,实际运行证明了其有效性和可靠性。
任海潮[2](2020)在《多维透视表OLAP操作与图表推荐算法的设计与实现》文中进行了进一步梳理随着数据资源的不断丰富,数据的多维分析成为企业获得洞察有力手段。目前传统的多维报表工具在功能全面性、交互性和移植性等方面仍存在不足,尤其是利用开源OLAP引擎方面还缺少合适的前端透视工具。本文通过对多维数据报表工具国内外现状的分析和多维数据分析与可视化相关技术概念的研究,解决了其中两个关键的问题,设计与实现了一套基于开源OLAP引擎Mondrian的Web端多维数据透视表系统。主要工作如下:(1)提出了新的表代数算子,实现图形透视表配置的快速、敏捷计算。在用户对图形透视表进行联机分析处理操作时,借助缓存的树形维度信息,快速生成透视结构配置以及表格每个单元属性信息,然后将表格每个单元结果转化为MDX多维查询语句与Mondrian引擎交互计算单元结果。(2)提出了基于图形语言的图形透视表配置推荐算法。在多维数据探索中,如何向用户推荐更直观更易于理解的图形透视表是其中的另一个关键问题。论文总结并设计了基于数据分布的标记类型推导规则,提出了数据特征组合的原则,设计了基于优先原则的多字段图表类型优先级推荐算法。(3)设计并实现了以上所提算法,多维数据透视表系统为多维数据可视化提供了一种通用的解决方案,可以帮助用户以多角度,多层次的观察和分析海量数据,满足了中小企业对数据进行多维分析的需求,具有很大的推广和应用价值。
周宇[3](2018)在《基于模型转换的ETL代码生成方法研究及应用》文中提出模型驱动架构的核心内容是模型和模型之间的转换,为实现代码自动生成提供了理论基础。公共仓库元模型包含关系元模型和多维数据元模型,数据抽取-转换-加载是数据仓库的重要组成部分,为数据仓库提供了必要的集成数据。为了解决关系数据源到多维数据仓库生成的ETL代码满足不同数据库管理平台的需求,本文提出了基于模型转换的ETL代码生成方法,该方法为实现设计重用、提高ETL开发效率具有重要意义。首先,本文研究了MDA开发流程中的模型、模型的表示方法、模型转换原理和转换规则。采用MDA表示模型的方法,用关系元模型表示关系模式,关系模式描述结构化的数据源;用多维数据元模型表示多维数据模式,多维数据模式描述目标数据仓库。其次,本文给出了数据模型形式化的方法,用描述逻辑语言SHIQ的蕴涵断言(Terminological Box,TBox)将关系元模型和多维元模型的元元素及元元素之间的关系表示为概念和角色,使用实例断言(Assertion Box,ABox)表示关系模式和多维数据模式形成知识库。再次,本文用关系代数表示ETL转换函数的语义,并对关系代数的关系进行形式化表示,使得ETL转换函数具有明确的语义。采用业务流程建模与标注(Business Process Modeling Notation,BPMN)来构建包含业务控制图和数据转换图ETL过程模型,将数据转换图生成关系表达式。通过MDA模型到代码的转换方法,定义ETL转换函数生成代码规则。通过BPMN提供的控制流调用关系表达式,实现关系表达式到ETL代码的生成。最后,本文将提出的ETL代码生成的方法应用到产品的销售场景中,并对结构化查询语言(Structured Query Language,SQL)代码用模板生成语言(Generate Template Language,GTL)进行描述,制定的GTL模板放入PowerDesigner实验平台,实现ETL过程的SQL代码自动生成,最后将生成的代码放到Oracle数据库中执行,验证了方法的有效性。
许婧[4](2015)在《气象资料归档与检索优化技术研究》文中进行了进一步梳理气象科学数据是数值预报业务化应用中不可或缺的重要资源,也是支撑数值天气预报技术快速发展的基石,蕴藏着巨大的科学、经济和社会价值。随着时间的推进和数值天气预报精细化水平的提高,气象科学数据在种类及数量上不断增长,其有效利用和高效管理已成为挑战性的研究课题。处于世界领先地位的欧洲中期天气预报中心(ECMWF)为此研发了气象资料归档与检索系统(MARS),提供了观测资料及数值预报产品资料的存档、查询等海量气象数据管理服务,目前被广泛应用。本文对MARS平台的关键技术集中进行了分析研究,对查询访问的关键性能瓶颈问题给出了相应的并行优化设计和实现方法,主要工作如下:1.研究分析了GRIB和BUFR编码类型的气象数据结构特点,在此基础上,针对性开展了国内外气象数据资料管理平台的技术发展和功能特点分析,并着重研究了MARS框架元数据管理关键技术,即基于多维时空数据结构的数据立方体索引技术。2.开展了基于MARS检索区域查询方式的优化研究,提出了一种高效的补集转换区域查询方法(CTRQ)。针对现有MARS系统执行大范围区域查询的效率瓶颈问题,基于数学补集思想设计了一种高效的补集转换区域查询方法,并通过Open MP混合模型编程,实现了基于高性能计算平台的CTRQ算法并行化操作。该方法能有效降低数据立方体聚集计算量,并通过并行算法进一步提高了计算效率。3.开展了基于MARS归档物理结构重组织优化算法研究,提出了一种基于索引映射的并行处理方法(IMPP)。针对现有MARS系统海量气象数据存档资料更新效率不高的问题,通过采用多线程并行更新技术,提出了一种基于索引映射的并行处理方法。该方法能有效降低元数据物理结构再组织的更新响应时间,从而实现气象科学数据快速归档的目的。
魏剑龙[5](2015)在《面向海量数据的分布式OLAP引擎的研究与实现》文中指出大数据时代越来越多的数据由Hadoop进行管理,而现存的BI工具对Hadoop支持的矛盾日益突出,传统的OLAP引擎不能承载指数级增长的数据量,用户不能忍受高度的延迟,另一方面,采用Hadoop作为交互处理平台,又受限于没有成熟的SQL接口和完备的在线分析处理能力,于是,本文提出了一个面向海量数据的分布式OLAP引擎。本文首先从传统的OLAP引擎研究开始,源码剖析开源OLAP引擎框架Mondrian,从而了解OLAP的引擎的实现原理和机制,特别是传统OLAP引擎的物化视图和重写等优化机制,进而在大数据的背景下,抛出传统OLAP引擎的不足和挑战,从而提出应对海量数据的策略,阐述构建本文的OLAP引擎所采用的分布式特性,如Paxos算法,HBase协处理器等技术。其主要思想是用空间换时间,通过充分利用横向扩展和分布式的集群架构,尽可能的考虑所有可能的数据查询情况,预先计算和预先构建从关系型的星型模式的数据,并且转换物化为存储在HBase中的键值对数据。其次,研究和分析了本文OLAP系统在distinct count函数所使用的海量数据的基数估计算法HyperLogLog Counting,从均值和方差两个方面说明其无偏性与一致性,并比较了 HyperLogLog与HyperLogLog++的差别。之后,提出本文OLAP引擎的整体架构和组件设计,在此基础上,描述了逻辑数据立方体模型的设计,Cube构建过程,ETL的过程,查询引擎的构建方法和优化方案。另外,针对各个组件的设计,阐述了查询引擎,前端RESTful服务器,以及存储引擎,数据字典编码子系统,作业引擎等方面的具体实现,特别总结了REST风格的优势和特点,描述了编码子系统采用的Trie树结构的相关操作,并证明了算法复杂度。文章最后,展示了本文提出的面向海量数据的分布式OLAP引擎的实际应用,通过前端AngularJS和后端Node.js技术,架起OLAP引擎的应用原型,提供基本SQL语句的查询UI接口,之后,比较了传统的OLAP引擎和本文OLAP引擎的相同点和不同点,对本文的OLAP引擎做了基于TPC-H的性能实验,验证其达到性能需求。
刘晶[6](2015)在《基于Mondrian的多维报表系统的设计与实现》文中进行了进一步梳理随着技术发展与大数据浪潮的来临,越来越多的企业意识到从过往业务数据中挖掘事件趋势并以此为根据作出决策的重要性,然而传统的OLTP(联机事务处理)并不适合对海量数据进行分析,如何快速地从过往沉淀数据中挖掘出有价值的信息,并以简单易懂的方式展现给战略决策者,已经成为了众多技术人员和企业主一直在思考的问题。在这样的背景下,OLAP(联机分析处理)与数据仓库技术迅速发展,已经成为这一问题的有效解决方案。当前,国内外众多厂商也纷纷推出了自己的数据分析产品,但这些工具往往不够通用,难以部署应用,且价格昂贵,令众多企业望而却步。为了解决以上问题,基于开源的Mondrian OLAP引擎设计并实现了一套多维报表分析工具,提供了从数据源管理、多维数据集设计到报表管理、仪表盘管等数据分析链条上众多环节的功能。该系统采用了元数据管理和数据分析相分离的设计,元数据管理负责数据源的导入与维护、多维数据集(即数据立方体)的定制,并向数据分析服务器提供Mondrian Schema格式的立方体配置文件;数据分析服务器包含了可视化的报表设计器和仪表盘设计器,允许用户用拖拽的方式定制报表及仪表盘。此外,本系统还集成了开源产品Saiku作为报表的前端展示工具,支持html表格或多种类型的图表格式的输出。该多维报表系统前端使用了JQuery和Bootstrap框架,后台基于Spring与Mondrian开发,数据库采用MySQL 5.5,并集成了Redis作为缓存服务器。整个系统采用IntelliJ IDEA开发,基于JDK 1.7版本,可以部署在Tomcat、Jetty、JBoss等服务器上。目前,该系统已在某大型互联网公司内成功上线,为公司内数十个产品提供报表分析服务。公司原有解决方案基于Oracle BIEE,购买费用高昂,并且只支持Oracle数据库;本系统的上线成功为公司节省了数十万元的软件成本,并提供对分布式数据库如Hive的支持,支持海量数据环境下数据分析功能。
程文聪[7](2010)在《面向大规模网络安全态势分析的时序数据挖掘关键技术研究》文中研究指明网络安全态势分析能够帮助网络管理者了解大规模网络的安全状态,并能为管理决策提供依据,因此近年来日益受到了政府和研究机构的关注和重视。为了获取大规模网络安全态势分析所需的基础数据,一些威胁检测工具被部署在了骨干网络上。由于对性能有较高要求,这些工具往往会采用专用化方式部署,因此产生出的数据的可关联性较差,难以通过小规模网络安全分析中常用的关联分析法进行处理,而一般只能通过统计分析来提取其中的信息。这些统计分析信息随时间变化所形成的网络安全时序数据可以反映出网络风险的变化,因而大规模网络的安全态势分析很大程度上依赖于对这些网络安全时序数据的有效挖掘。本文面向大规模网络安全态势分析的需求,以“863-917”网络安全监测平台所采集到的木马数据以及蜜网系统所获得的僵尸网络数据为实例研究对象,针对网络安全时序数据进行挖掘研究,从发现这些数据的特殊变化和提供决策参考的角度提取出几个关键性问题进行了研究。主要工作包括:1、伪周期网络安全时序数据异常波段检测。许多网络安全时序数据具有典型的伪周期特征,其中异常波段的出现往往表明网络安全风险发生了一定变化,具有进一步深入分析的必要。由于网络环境具有不稳定性,因而通过引入具有较好偏移适应性的动态时间弯曲距离作为不同波段间的相似性度量,可以有效地检测出有较少历史相似波段的异常波段。在此基础上我们提出了一种基于聚类索引的异常波段检测方法用以加速该检测过程。在木马数据集和僵尸网络数据集上的实验表明该方法能以损失一定检测准确度为代价,取得比直接基于DTW的算法更高的检测效率。2、基于小波概要的网络安全时序数据流区间差分skyline查询。在进行网络安全态势分析的过程中,需要从大量同构的网络安全时序数据里选择出某些具有特殊性的数据作为重点关注对象。基于量值度量,现有的区间skyline查询有时不能满足网络安全应用的需求,且可能存在“淹没”现象。为此本文提出区间差分skyline的概念,面向特定时间区间内的数据增长属性进行处理以弥补现有研究的不足。并利用小波参数的差分性质,在网络安全时序数据流处理的背景下,给出了在常用的小波概要上快速进行不同粒度区间差分skyline查询的算法。在多地区、多种类木马数据集上的实验验证了本文所提方法能够在一定程度上避免基于量值度量的区间skyline查询的不足,并且与直接使用部分逆小波变换的算法相比有较低的计算复杂度。3、多维网络安全时序数据相似子序列搜索。历史相似子序列可以为网络管理者提供决策参考依据,并可用于对网络安全时序数据的定性预测。为了能够更好地利用近期出现的数据,本文通过引入数据立方体模型将相似子序列搜索问题扩展到了多维场景。继而利用数据立方体相邻层次单元间的相关性对搜索算法进行了改进,从而提高了搜索效率。在多维木马数据集上的实验验证了本文所提方法能够在具有多维组织结构的网络安全时序数据中搜索出更多有价值的匹配结果,并且能在保证准确性的基础上提高搜索算法的效率。4、网络安全时序数据预测。预测问题长期以来备受关注,同时也是网络安全态势分析中的一项重要需求。网络安全时序数据变化复杂,影响因素众多,难以对其建立合适的预测模型,因此传统的预测方法对此类数据的预测准确性往往较差。本文从基于案例推理的思想出发,通过引入事件序列分析领域中频繁情节的概念和方法为网络安全时序数据预测问题提供了新的解决思路。在此基础上针对具有不同特征的数据给出了利用均值特征和趋势特征进行预测的具体方法。通过在木马数据集和僵尸网络数据集上与其它几种常用预测方法的比较实验表明,本文所提出的方法在预测网络安全时序数据时具有较高的预测准确性。综上所述,本文的工作针对大规模网络安全态势分析背景下的时序数据挖掘问题,围绕着该问题在实际应用中涉及的若干个关键技术进行研究。本文对于促进该问题的理论研究和实用化具有一定的理论和应用价值。
师智斌[8](2010)在《高性能数据立方体及其语义研究》文中研究说明数据立方体技术是联机分析处理的主要手段。随着数据规模的扩大和维数的增加,数据立方体的操作代价急剧增加,需要进行优化处理。目前数据立方体的研究包括:物化、索引、近似、压缩、约简以及联机聚集等。形式概念分析理论(FCA)是以形式化的概念和概念层次为基础的数学分析工具。研究发现,概念格作为FCA的核心结构与数据立方体格都基于序结构,并且以数据仓库中的基本表作为形式背景,FCA理论中与概念相对应的等价特征组与数据立方体的覆盖等价类对数据单元具有相同的划分结果。本文将FCA和概念格理论引入数据立方体的研究,进行高性能数据立方体及其语义研究。研究表明,FCA及相关理论的引入,为数据立方体研究提供了一个新的有力的分析工具,利用该工具可以从数据内部特性入手,实现结构简单、体积较小且性能较优的数据立方体,并使数据立方体语义的理解更深刻,更易于实现。主要的研究工作如下:(1)提出基于形式概念格结构表达的数据立方体。首先对数据立方体与形式概念格进行相关分析,以概念格结构表达数据立方体,提出聚集概念和聚集概念格结构(ACL)。ACL是一种完全的数据立方体结构,由于其内具有相同聚集值的若干单元用一个聚集概念表示,因此能实现与商立方体相同的约简。另外,ACL结构中概念间的泛化和例化关系反映了约简后数据之间的层次关联,可表达比商立方体更清晰的数据立方体语义关系。其次,在ACL基础上,本文提出约简聚集概念结构(RAC)。基于形式概念分析理论中G偏序关系的性质研究发现,由于基本表的完备性,基本表中各个元组与ACL结构中的对象概念一一对应,因此基本表可以看作是所有对象概念的集合。RAC结构对ACL进一步约简,去除所有对象概念和特殊概念(Ω,null)。与基本表联合,RAC仍然是完全的立方体结构,但能实现比商立方体和ACL结构更大的约简,且仍能保持所有非对象聚集概念之间的语义关系。第三,基于形式概念分析理论中M偏序集的性质,提出基于ACL和RAC高效的查询方法。该方法利用属性概念内涵m″确定在ACL和RAC上的查询搜索路径,避免全范围的搜索,查询效率较高。最后,对形式背景进行讨论,将概念格的属性约简理论应用于数据立方体,通过合并相对必要属性、删除绝对不必要属性实现形式背景的简化,最终实现数据立方体相关操作的简化。(2)研究形式背景的属性蕴含关系,采用关系系统存储,提出基于属性蕴含的约简聚集概念数据立方体结构(RAC-AI)。根据形式概念分析理论,研究形式背景中描述概念格的两类非平凡属性蕴含:前提是伪内涵的蕴含和前提是真前提的蕴含。研究通过属性蕴含而不再依赖概念格结构确定概念内涵。在RAC结构基础上,提出两种基于属性蕴含的约简聚集概念数据立方体结构(RAC-AI):基于前提是伪内涵和基于前提是真前提的RAC-AI结构。RAC-AI结构摒弃RAC复杂的概念格结构,增加属性蕴含表,记录形式背景中所有非平凡的蕴含,并采用主流的关系系统存储所有非对象聚集概念。理论分析和实验结果表明,RAC-AI体积小,结构简单,构建和增量维护代价较低,查询响应速度也较快,是目前综合性能较优的数据立方体。(3)数据立方体语义关系的挖掘和应用直接影响联机分析处理的各种操作。本文研究基于FCA和概念格理论的数据立方体语义操作实现。首先讨论形式背景的净化和约简,消除形式背景中的冗余信息。现有的数据立方体语义研究都未考虑对数据本身进行约简,大量冗余信息的存在干扰了对语义的理解和发现。其次,利用形式概念分析的M偏序集理论,将M偏序关系作为生成概念分层的一种启发式的规则,形成属性级别的概念分层语义,而现有的概念分层一般只进行到维级别。第三,利用M偏序关系和非平凡的属性蕴含,实现数据立方体单元之间的上卷和下钻语义操作。通过分析等价特征组上界和下界的特性,获得等价特征组的结构,实现具有相同聚集值单元之间的上卷和下钻语义操作。利用非平凡的属性蕴含获取任意概念的父概念和子概念的内涵,实现不同聚集值单元的上卷和下钻语义操作。该方法不依赖任何特殊结构,实现从数据立方体任意单元出发的上卷和下钻操作,重复这个过程,能在数据立方体格中漫游,而不必生成完整的数据立方体。现有的数据立方体上卷和下钻语义操作一般只进行到视图级别,能达到单元级别的一般要依赖复杂特殊的结构实现。(4)范围查询是应用于多维数据立方体的有效的分析工具,预计算技术是提高范围查询响应速度的一种方法。本文在现有prefix sum技术和分块技术基础上,提出基于前缀区域的不规则方体的分块方法PRC,这种分块方法利于从起始单元开始的前缀区域聚集值的计算。对d维数据立方体(假定每维的度都为n),PRC在分块及区域求和时使用回归分割技术,在不增加额外空间的基础上,实现范围查询和数据更新的代价都为O(logdn)。
常博[9](2009)在《数据仓库与联机分析技术在高速公路收费系统中的应用》文中研究表明随着高速公路收费业务的飞速发展,运营过程中积累了大量的历史数据。如何对这些历史数据进行有效的分析,发现知识,用以指导经营决策,已成为企业在竞争中制胜的关键。数据仓库(DW)技术和联机分析处理(OLAP)技术已成为决策支持系统领域研究的热点。本文综合分析了数据仓库和联机分析处理技术的相关知识点,对将数据源系统向数据仓库加载的ETL(提取、转换和加载)过程进行了比较深入地研究。利用SQL Server 2005中提供的Analysis services工具建立数据仓库模型,实现了从星型模型向多维数据立方体的转换,形成了多维分析模型,并采取切片、切块、旋转、钻取等各种分析动作剖析数据,实现了联机分析,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息内涵。前台开发工具选择了C#.NET对系统进行更直观的展示。目前国内将数据仓库技术应用于高速公路收费数据分析领域并未取得系统性的研究成果和成功的实施案例。本文在调查研究高速公路收费业务运营情况的基础上,将数据仓库和联机分析处理这两种技术相互结合,设计并实现了高速公路收费数据管理分析系统,为决策支持系统开辟了新途径,具有一定的理论和实际意义。
王文军[10](2008)在《基于商空间理论的数据仓库模型研究》文中研究说明在信息技术高度发展的知识经济时代,一方面,各种实际应用领域的数据量都在急剧膨胀;另一方面,立于知识经济时代的企业,激烈的竞争致使他们对决策支持系统分析角度的要求不仅在广度上力求信息全面,而且在深度上要求数据信息具有粒度层次性。由于数据仓库是面向联机分析处理(on-line analysis processing,简称OLAP )而设计的,用来存储供查询和决策分析用的、历史的和集成的数据。以联机数据分析处理为主的决策分析系统对数据仓库模型有效管理海量数据的能力提出挑战。鉴于此,构建能有效管理海量数据并支持复杂维层次结构的多维数据模型成为数据库技术研究的新热点。本文探索在商空间理论的指导下,以海量数据的有效层次化管理为目标,提出基于商空间理论的多维数据仓库模型。模型通过商空间理论中的等价关系与模型中维层次属性建立一一映射,以等价关系的粗细为游标调控维层次属性的粗细粒度转化实现聚集等数据仓库核心操作,并采用多维数组结合树索引的方式实现多维数据模型的实化立方体集有效存储,这样不仅保持了模型中原数据语义间关系原貌,而且增加了按商空间保假原理进行OLAP索引查询的途径。整个模型的选择一直以提高OLAP查询的速度、优化OLAP查询的操作为目标,最后结合教学质量审查系统数据仓库(TQSDW)的数据与性能表现对模型的选择进行分析测试。主要研究成果如下:1.新构建一个描述复杂维层次结构的多维数据模型。依据商空间粒度理论中粗细粒度层次灵活转换技术,该模型不仅支持数据集合的基本代数操作,而且其在维层次间粗细粒度灵活转换的聚集操作(如层次聚集,维聚集等)中具有优势,而聚集操作是OLAP操作中(如上卷,下钻等)核心操作的基本步骤,在OLAP基本操作和OLAP查询中具有比较重要的地位。2.探索该多维层次化数据模型的聚集立方体存储实现方式。依据多维数据模型其维层次具有分层递阶逻辑结构的特征,考虑对实化立方体采用构建维层次树的方式来实现存储。并提出相应实现存储功能的HDEKC算法。3.研究采用商空间理论索引方法实现对多维数据模型进行幂聚集操作及其OLAP查询功能。提出基于商空间理论的Data Cube幂聚集操作AQCA算法。
二、多维数据立方体模型及其基于关系的实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、多维数据立方体模型及其基于关系的实现(论文提纲范文)
(1)基于统一数据模型的电力现货市场清算方法及其应用(论文提纲范文)
0 引言 |
1 沙盒技术 |
2 基于数据立方体的算子库模型 |
2.1 维度分解 |
2.1.1 市场维度类 |
2.1.2 交易维度类 |
2.1.3 主体维度类 |
2.1.4 口径维度类 |
2.2 多维数据立方体 |
2.3 算子库模型 |
3 构建列式数据仓 |
3.1 列式存储结构 |
3.2 维度编码压缩法 |
3.3 模型转换服务 |
4 列式计算引擎 |
4.1 内存计算服务 |
4.2 清算计算与列式对比 |
5 基于统一数据模型的清算系统实现 |
6 算例验证 |
7 结语 |
(2)多维透视表OLAP操作与图表推荐算法的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究现状 |
1.3 本文工作与贡献 |
1.4 篇章结构 |
1.5 本章小节 |
第二章 相关技术研究 |
2.1 OLAP |
2.1.1 OLAP的定义及概念 |
2.1.2 OLAP多维操作 |
2.1.3 MDX查询语句 |
2.2 系统相关组件 |
2.2.1 Mondrian |
2.2.2 Saiku |
2.2.3 Redis |
2.2.4 Marts |
2.3 数据可视化技术 |
2.3.1 数据到可视化的直观映射 |
2.3.2 图形语言 |
2.3.3 数据到表的构建 |
2.4 高维数据的可视化研究 |
2.4.1 平行坐标法 |
2.4.2 散点图矩阵 |
2.4.3 表格透镜 |
2.5 表代数与表代数求值 |
2.5.1 表代数和表代数求值 |
2.5.2 简单表代数求值 |
2.5.3 复合表代数求值 |
2.6 本章小结 |
第三章 系统架构 |
3.1 系统工作流程设计 |
3.1.1 基本概念描述 |
3.1.2 系统工作流程 |
3.2 系统架构设计 |
3.2.1 流程控制模块 |
3.2.2 数据管理模块 |
3.2.3 维度管理模块 |
3.2.4 表格单元数值计算模块 |
3.2.5 图表设计模块 |
3.2.6 图表结果配置模块 |
3.3 本章小节 |
第四章 多维透视表的OLAP操作设计与实现 |
4.1 高维多元数据的可视化降维 |
4.1.1 表格透镜与数据透视表 |
4.1.2 表代数计算数据透视表的布局 |
4.2 一种新的表代数的设计用于OLAP操作 |
4.2.1 维度层次级别树 |
4.2.2 构建立方体生成树 |
4.2.3 新的表代数用于计算表格布局 |
4.3 系统中的表代数设计与应用 |
4.3.1 输入接口设计 |
4.3.2 表代数计算流程 |
4.4 本章小结 |
第五章 图表智能推荐的设计与实现 |
5.1 陈述型数据可视化方式推荐 |
5.1.1 可视化图表类型 |
5.1.2 可视化图表原则 |
5.1.3 基于数据特征的图表分类原则 |
5.2 基于数据特征的图表配置规则 |
5.2.1 启发式配置原理 |
5.2.2 图表类型的优先级原则 |
5.2.3 优先级规则 |
5.3 图形透视表配置推荐 |
5.3.1 单轴度量的启发式推荐算法 |
5.3.2 双轴多度量图形透视表配置推荐算法 |
5.3.3 图形透视表配置推荐算法流程 |
5.4 本章小结 |
第六章 系统的应用与实例展示 |
6.1 系统的应用 |
6.1.1 系统的架构 |
6.1.2 交互系统的界面介绍 |
6.2 实例的展示 |
6.2.1 数据描述 |
6.2.2 输入说明 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 本文的工作和贡献 |
7.2 未来的研究与展望 |
参考文献 |
致谢 |
作者简介 |
学位论文数据集 |
(3)基于模型转换的ETL代码生成方法研究及应用(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文的主要工作 |
1.4 本文的组织结构 |
第2章 理论及技术 |
2.1 ETL |
2.1.1 ETL的概念 |
2.1.2 构建ETL的方法 |
2.1.3 ETL转换函数 |
2.2 MDA |
2.2.1 MDA的背景 |
2.2.2 MDA模型表示及转换的思想 |
2.3 关系代数表示 |
2.4 描述逻辑 |
2.5 本章小结 |
第3章 ETL代码生成方法 |
3.1 总体思路 |
3.2 从数据模型生成描述逻辑知识库的方法 |
3.2.1 数据模型形式化的方法 |
3.2.2 从关系数据元模型生成TBox知识库的方法 |
3.2.3 从关系模式生成ABox知识库的方法 |
3.2.4 从多维数据元模型生成TBox知识库的方法 |
3.2.5 从多维数据模式ABox知识库的方法 |
3.3 从ETL数据转换图生成关系代数式的方法 |
3.3.1 ETL转换函数到关系代数的转换规则 |
3.3.2 关系代数式中关系到知识库的映射方法 |
3.3.3 从数据转换图生成关系代数式的方法 |
3.4 从关系代数式生成ETL代码的方法 |
3.4.1 SQL语言 |
3.4.2 从关系运算式生成SQL代码的规则 |
3.4.3 生成ETL代码的方法 |
3.5 本章小结 |
第4章 实例的应用 |
4.1 相关技术 |
4.1.1 GTL简介 |
4.1.2 Oracle数据库平台 |
4.2 实例应用的背景 |
4.2.1 数据源关系模式实例 |
4.2.2 数据仓库多维数据模式实例 |
4.2.3 生成数据立方体 |
4.3 PowerDesigner中的实现 |
4.3.1 ETL过程的实现 |
4.3.2 实现ETL代码生成方法 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 主要工作与创新点 |
5.2 后续研究工作 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(4)气象资料归档与检索优化技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 主要研究内容 |
1.3.1 研究内容和目标 |
1.3.2 组织结构 |
1.4 本章小结 |
第二章 多维模型和数据立方体技术 |
2.1 多维数据模型和立方体概念 |
2.2 数据立方体存储 |
2.2.1 维存储 |
2.2.2 度量存储 |
2.3 数据立方体计算 |
2.3.1 多路数组聚集算法 |
2.3.2 BUC算法 |
2.3.3 Star-Cubing算法 |
2.4 数据立方体查询 |
2.5 本章小结 |
第三章 MARS架构及立方体技术应用研究 |
3.1 GRIB与BUFR数据 |
3.1.1 GRIB数据简介 |
3.1.2 BUFR数据简介 |
3.2 MARS数据管理框架 |
3.3 数据立方体技术应用 |
3.3.1 非聚集维—MarsTree |
3.3.2 聚集维—Shape |
3.3.3 物理结构—Layout |
3.4 本章小结 |
第四章 基于MARS检索区域查询优化算法设计 |
4.1 RQ相关问题分析 |
4.2 RQ相关问题分析 |
4.2.1 CTRQ算法模型 |
4.2.2 CTRQ并行优化 |
4.3 实验及结果 |
4.3.1 实验描述 |
4.3.2 结果分析 |
4.4 本章小结 |
第五章 基于MARS归档物理结构重组织优化算法设计 |
5.1 相关问题分析 |
5.2 IMPP算法设计 |
5.2.1 IMPP算法模型 |
5.2.2 IMPP执行算法 |
5.3 实验及结果 |
5.3.1 实验环境与数据 |
5.3.2 实验结果与分析 |
5.4 本章小结 |
结束语 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(5)面向海量数据的分布式OLAP引擎的研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 论文的研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文研究的主要内容 |
1.4 论文的组织结构 |
第2章 相关技术 |
2.1 数据仓库与OLAP |
2.2 Mondrian相关技术 |
2.3 Hadoop相关技术 |
2.3.1 MapReduce |
2.3.2 Hive |
2.3.3 HBase |
2.4 海量数据基数估计算法 |
2.5 本章小结 |
第3章 OLAP引擎的研究 |
3.1 Mondrian源码剖析 |
3.2 传统OLAP引擎的不足和挑战 |
3.3 传统OLAP引擎优化技术的分析 |
3.4 应对海量数据构建分布式OLAP引擎的策略 |
3.5 面向海量数据的OLAP引擎采用的分布式架构特性 |
3.6 本章小结 |
第4章 OLAP引擎的设计 |
4.1 整体架构和组件设计 |
4.2 公共基础设施 |
4.3 逻辑数据立方体模型 |
4.4 数据立方体的构建过程和方法 |
4.5 抽取转换加载的过程 |
4.6 查询引擎的构建方法 |
4.7 优化方案 |
4.8 本章小结 |
第5章 OLAP引擎的实现 |
5.1 查询引擎 |
5.2 前端RESTful服务器 |
5.3 存储引擎 |
5.4 数据字典编码子系统 |
5.5 作业引擎 |
5.6 其他细节 |
5.7 本章小结 |
第6章 OLAP引擎的应用与性能实验 |
6.1 面向海量数据的分布式OLAP引擎的应用效果 |
6.2 面向海量数据的分布式OLAP引擎的性能 |
6.3 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
(6)基于Mondrian的多维报表系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 论文的主要研究内容 |
2 相关技术介绍 |
2.1 OLAP(联机分析处理) |
2.2 Mondrian |
2.3 Saiku |
2.4 Redis |
2.5 本章小结 |
3 系统的分析与设计 |
3.1 需求分析 |
3.2 系统架构设计 |
3.3 系统总体功能设计 |
3.4 系统主要功能模块设计 |
3.5 本章小结 |
4 系统的实现 |
4.1 数据源管理模块实现 |
4.2 立方体管理模块实现 |
4.3 报表管理模块的实现 |
4.4 仪表盘管理模块实现 |
4.5 定时任务模块实现 |
4.6 本章小结 |
5 测试 |
5.1 测试环境 |
5.2 测试用数据 |
5.3 主要功能测试 |
5.4 性能测试 |
5.5 本章小结 |
6 总结与展望 |
6.1 全文总结 |
6.2 展望 |
致谢 |
参考文献 |
(7)面向大规模网络安全态势分析的时序数据挖掘关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 相关研究工作 |
1.2.1 网络安全态势感知 |
1.2.2 时序数据挖掘 |
1.3 本文工作 |
1.3.1 主要研究内容 |
1.3.2 主要创新点 |
1.4 论文结构 |
第二章 伪周期网络安全时序数据异常波段检测 |
2.1 问题描述 |
2.2 相关研究 |
2.2.1 异常检测 |
2.2.2 相似性度量 |
2.2.3 周期性分析 |
2.3 基于动态时间弯曲距离的伪周期数据异常波段检测 |
2.3.1 伪周期数据的波段分断方法 |
2.3.2 直接基于DTW的伪周期数据异常波段检测方法 |
2.3.3 基于聚类索引的快速近似检测方法 |
2.4 实验 |
2.4.1 实验设置 |
2.4.2 实验结果 |
2.5 本章小结 |
第三章 基于小波概要的网络安全时序数据流区间差分skyline查询 |
3.1 问题描述 |
3.2 相关研究 |
3.2.1 skyline和区间skyline |
3.2.2 时序数据流 |
3.2.3 小波和小波概要 |
3.3 区间差分skyline |
3.3.1 定义及性质 |
3.3.2 在时序数据流的小波概要上计算区间差分skyline |
3.4 实验 |
3.4.1 实验设置 |
3.4.2 实验结果 |
3.5 本章小结 |
第四章 多维网络安全时序数据相似子序列搜索 |
4.1 问题描述 |
4.2 相关研究 |
4.2.1 相似子序列搜索 |
4.2.2 数据立方体 |
4.3 在多维时序数据中进行相似子序列搜索 |
4.3.1 基于数据立方体模型定义多维相似子序列 |
4.3.2 基于SPRING的多维相似子序列搜索方法 |
4.3.3 快速多维相似子序列搜索方法 |
4.4 实验 |
4.4.1 实验设置 |
4.4.2 实验结果 |
4.5 本章小结 |
第五章 网络安全时序数据预测 |
5.1 问题描述 |
5.2 相关研究 |
5.2.1 事件序列的频繁情节挖掘 |
5.2.2 时序数据的表示 |
5.2.3 时序数据的预测 |
5.3 面向预测的频繁情节挖掘方法 |
5.4 基于特征事件序列频繁情节的时序数据预测 |
5.4.1 利用均值特征的预测 |
5.4.2 利用趋势特征的预测 |
5.5 实验 |
5.5.1 实验设置 |
5.5.2 实验结果 |
5.6 本章小结 |
第六章 结论与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
攻读博士学位期间参加的科研项目 |
(8)高性能数据立方体及其语义研究(论文提纲范文)
致谢 |
中文摘要 |
ABSTRACT |
1 绪论 |
1.1 数据仓库和联机分析处理 |
1.2 数据立方体概述 |
1.2.1 数据立方体组织结构 |
1.2.2 聚集函数 |
1.2.3 数据立方体存储 |
1.2.4 基于数据立方体的查询处理 |
1.3 本文的研究内容和创新点 |
1.4 本文的组织 |
2 数据立方体主要研究内容及研究现状 |
2.1 数据立方体聚集计算方法 |
2.2 数据立方体物化选择算法 |
2.3 数据立方体近似技术 |
2.4 数据立方体特殊查询方式 |
2.5 数据立方体约简技术 |
2.6 小结 |
3 ACL和RAC:基于形式概念格的约简数据立方体结构 |
3.1 引言 |
3.2 形式概念分析的理论基础 |
3.2.1 基本概念 |
3.2.2 相关研究内容 |
3.3 数据立方体与形式概念格相关分析 |
3.4 聚集概念格(Aggregate Concept Lattice,ACL) |
3.4.1 聚集概念格的定义 |
3.4.2 聚集概念格结构的建立 |
3.5 约简聚集概念结构(Reductive Aggegate Concept structure,RAC) |
3.5.1 问题的提出 |
3.5.2 约简聚集概念结构(Reductive Aggegate Concept structure,RAC) |
3.5.3 约简聚集概念结构的构建 |
3.6 基于ACL和RAC的数据立方体查询处理 |
3.6.1 任意维组合的查询实现 |
3.6.2 基于ACL结构的查询处理 |
3.6.3 基于RAC的查询处理 |
3.6.4 基于RAC的查询举例 |
3.7 RAC性能分析及测试实验 |
3.7.1 性能分析 |
3.7.2 测试实验 |
3.8 关于形式背景的约简讨论 |
3.8.1 概念格属性约简定义和方法 |
3.8.2 概念格属性约简方法在数据立方体中的应用 |
3.9 小结 |
4 RAC-AI:基于属性蕴含的约简数据立方体结构 |
4.1 引言 |
4.2 动机 |
4.3 属性蕴含 |
4.3.1 属性蕴含的相关概念 |
4.3.2 前件是伪内涵的完备且非冗余的蕴含集合 |
4.3.3 前件是真前提的完备的蕴含集合 |
4.3.4 两类属性蕴含之间的关系 |
4.3.5 伪内涵和真前提的计算 |
4.3.6 通过属性蕴含获取概念内涵 |
4.4 RAC-AI:基于属性蕴含的约简数据立方体结构 |
4.4.1 基于前件是伪内涵的属性蕴含的RAC-AI结构 |
4.4.2 基于前件是真前提的属性蕴含的RAC-AI结构 |
4.4.3 RAC-AI的增量更新 |
4.5 RAC-AI性能分析和测试实验 |
4.5.1 性能分析 |
4.5.2 测试实验 |
4.6 小结 |
5 基于FCA和概念格理论的数据立方体语义研究 |
5.1 引言 |
5.2 相关工作 |
5.3 数据立方体语义研究 |
5.3.1 形式背景的约简讨论 |
5.3.2 概念分层语义 |
5.3.3 具有相同聚集值单元之间的语义关系 |
5.3.4 具有不同聚集值单元之间的语义关系 |
5.4 小结 |
6 PRC:适用于范围查询的基于前缀区域的数据立方体结构 |
6.1 引言 |
6.2 相关工作 |
6.3 PRC:基于前缀区域的数据立方体结构 |
6.3.1 动机 |
6.3.2 基本的前缀区域数据立方体(Basic Prefix Region Cube) |
6.3.3 PRC数据立方体的改进 |
6.3.4 PRC数据立方体性能分析 |
6.4 小结 |
7 结束语 |
7.1 本文工作的总结 |
7.2 进一步研究的展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(9)数据仓库与联机分析技术在高速公路收费系统中的应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及现状 |
1.1.1 背景介绍 |
1.1.2 决策支持系统的发展 |
1.1.3 数据仓库研究现状 |
1.2 研究意义 |
1.3 研究内容 |
1.4 章节安排 |
第二章 数据仓库与联机分析技术 |
2.1 数据仓库概述 |
2.1.1 数据仓库概念及特点 |
2.1.2 数据仓库与数据库的区别 |
2.1.3 数据仓库架构 |
2.2 数据预处理技术 |
2.3 数据仓库的ETL过程 |
2.3.1 数据提取 |
2.3.2 数据转换 |
2.3.3 数据装载 |
2.4 粒度与聚合数据 |
2.5 数据仓库的备份与还原 |
2.6 联机分析技术 |
2.6.1 联机分析概述 |
2.6.2 维和度量的介绍 |
2.6.3 OLAP的操作技术 |
2.7 数据仓库的模型设计 |
2.7.1 维度建模 |
2.7.2 概念模型 |
2.7.3 逻辑模型 |
2.7.4 物理模型 |
2.8 本章小结 |
第三章 高速公路收费数据仓库与OLAP总体分析 |
3.1 高速公路收费数据的特点 |
3.2 总体方案介绍 |
3.2.1 收费数据仓库与OLAP需求分析 |
3.2.2 收费数据仓库建设原则 |
3.2.3 联机分析准则 |
3.2.4 收费数据仓库与OLAP设计目标 |
3.3 本章小结 |
第四章 高速公路收费数据仓库与OLAP设计 |
4.1 收费数据仓库模型设计 |
4.1.1 确定主题 |
4.1.2 概念模型设计 |
4.1.3 逻辑模型设计 |
4.1.4 物理模型设计 |
4.2 ETL方案的设计 |
4.2.1 数据抽取设计 |
4.2.2 数据清洗/转换设计 |
4.2.3 数据加载设计 |
4.2.4 ETL的工具选择 |
4.3 联机分析处理系统设计 |
4.3.1 立方结构 |
4.3.2 多维数据分析方法的确定 |
4.3.3 多维分析模型的实现 |
4.4 本章小结 |
第五章 系统的实现与展示 |
5.1 系统的开发工具 |
5.1.1 数据仓库软件—SQL Server 2005 |
5.1.2 前台开发工具—C#.NET |
5.2 系统的功能结构及详细介绍 |
5.2.1 系统的功能介绍 |
5.2.2 系统功能模块介绍 |
5.2.3 关键代码的设计 |
5.3 系统展示 |
5.4 本章小结 |
总结与展望 |
参考文献 |
附录 |
攻读硕士学位期间发表的论文 |
致谢 |
(10)基于商空间理论的数据仓库模型研究(论文提纲范文)
摘要 |
Abstract |
1 概述 |
1.1 数据仓库介绍 |
1.1.1 数据仓库的技术简介 |
1.1.2 国内外数据仓库技术的研究现状与发展前景 |
1.1.3 目前面临的问题 |
1.2 商空间粒度理论概述 |
1.2.1 粒度计算理论背景 |
1.2.2 粒度计算的研究现状 |
1.2.3 商空间粒度理论概述 |
1.3 本论文所做的工作 |
1.3.1 本文研究目的和方法 |
1.3.2 论文内容及章节安排 |
2 基于商空间理论的维层次化多维数据模型 |
2.1 引言 |
2.2 基于半序拓扑结构的维层次多维数据模型 |
2.2.1 多维数据模型 |
2.2.2 代数操作 |
2.3 基于多维数据模型的分层递阶层次结构建立 |
2.4 本章小结 |
3 数据仓库多维数据模型的存储实现 |
3.1 多维数据组织与分析 |
3.2 多维数据模型存储策略选择与分析 |
3.2.1 商空间理论的等价类立方体聚集 |
3.2.2 优化查询的存储技术 |
3.3 多维数据模型的具体组织存储实现 |
3.3.1 主题的等价类实化立方体 |
3.3.2 等价类立方体的维层次B~+ 树型存储结构 |
3.3.3 相应算法 |
3.4 本章小结 |
4 基于商空间理论的多维数据模型查询实现 |
4.1 概述 |
4.2 基于商空间理论的OLAP操作 |
4.2.1 多维数据集合上的OLAP层次钻取操作步骤 |
4.2.2 基于商空间理论的层次Cube幂聚集操作 |
4.3 多维数据模型的查询实现 |
4.3.1 商空间索引原理 |
4.3.2 OLAP查询 |
4.4 性能分析与小结 |
4.4.1 性能分析 |
4.4.2 本章小结 |
5 基于商空间理论教学审查系统(TQSDW)模型分析与测试 |
5.1 TQS系统的需求分析与框架设计 |
5.1.1 TQS系统的需求分析 |
5.1.2 TQS系统体系构架 |
5.2 TQSDW系统的数据模型设计 |
5.2.1 主题域的确定 |
5.2.2 与主题相关的多维数据模型设计 |
5.3 TQSDW数据集合模型的存储实现 |
5.3.1 基表的ROLAP实现方式 |
5.3.2 等价类实化立方体的维层次B~+ 树型存储结构 |
5.4 TQSDW系统的查询实现 |
5.5 性能测试分析与总结 |
6 总结与展望 |
6.1 全文总结 |
6.2 进一步的研究工作 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
四、多维数据立方体模型及其基于关系的实现(论文参考文献)
- [1]基于统一数据模型的电力现货市场清算方法及其应用[J]. 龙苏岩,盛祥祥,周天翔,王一凡,许玉洁. 电力系统自动化, 2021(06)
- [2]多维透视表OLAP操作与图表推荐算法的设计与实现[D]. 任海潮. 浙江工业大学, 2020(03)
- [3]基于模型转换的ETL代码生成方法研究及应用[D]. 周宇. 重庆邮电大学, 2018(01)
- [4]气象资料归档与检索优化技术研究[D]. 许婧. 国防科学技术大学, 2015(04)
- [5]面向海量数据的分布式OLAP引擎的研究与实现[D]. 魏剑龙. 东北大学, 2015(06)
- [6]基于Mondrian的多维报表系统的设计与实现[D]. 刘晶. 华中科技大学, 2015(05)
- [7]面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D]. 程文聪. 国防科学技术大学, 2010(08)
- [8]高性能数据立方体及其语义研究[D]. 师智斌. 北京交通大学, 2010(08)
- [9]数据仓库与联机分析技术在高速公路收费系统中的应用[D]. 常博. 长安大学, 2009(12)
- [10]基于商空间理论的数据仓库模型研究[D]. 王文军. 中北大学, 2008(11)