数据仓库相关技术研究综述
Ⅻ哪一,0“咖|Ⅻ+,7、“0~Ⅱ201122342236?自33;.1一!严萤髓数据仓库构建方法一1蕊轴二一%自女..啊~拙女21☆△”?十‰?十女自清%.眄。,ⅫⅡ拄施目拄“体Ⅻ、分步女步原,~一.。一《《日日:201卜6”女十:目(19811).,.,自日女、4;(1984一).女.自虐:Ⅻ女1979一)...自‰;《(1983一),.自《(1蝴),目自目《Ⅱ2234-%第7卷第10期2011年4月)电奠知识与技术设计方案.具体阐述了概念模型设计、逻辑模型设计和物理模型设计,并以2000平台为基础,给出了具体的实现,在企业引入分析型系统时为构建数据仓库提供了参考依据。文献[71是出了构建数据仓库模型的建议:1)采用星系模型:在实际应用中,用户的需求多种多样,数据来源可能为多个事实表,故可采用多个事实表共存,之间通过公用的维表相关联的星系模型,也称为事实星座。2)原子级数据模型和汇总级数据模型并存:坚持原级数据模型和汇总级数据模型并存,而且要尽可能地细化原子级数据。3)设立代理键:代理键是维表中一些没有业务含义的字段.只是一个由数据仓库加载程序时建立的数字。
文献『81认为对于流程工业中的数据仓库建设,存在一贯性质量分析的需求,即前一个工序的工艺可能影响下一个工序的产品质量。针对这种需求,提出了~种数据仓库的概念设计模型.星链模型。其中引入了链式事实主题结构的概念,并把度量细分为传递型度量与非传递型度量,给出了星链模型的图形表示法以及由概念模型到逻辑模型的转换规则。该模型可以方便地转化成多种逻辑模型如星型模式、雪花模式以及星座模式。由于数据仓库的一个主要特点是其“非易失性”,即进入数据仓库中的数据长期保存,不再改变。文献9利用“时问”维度可以标识事实数据的历史,实现了“事实数据的非易失性”。但是,“时间维并不能标识数据仓库模式的变化”,“模式结构的非易失性”需要构建数据仓库模式版本来实现。针对数据仓库多维模式结构的进化问题,文献提出一种多版本数据仓库模型,给出模型结构、模型对象以及对象之间指派关系的定义。
多版本数据仓库基于“版本控制”策略管理数据仓库的多维模式,将数据仓库进化过程中的每一种有效状态都以版本的形式保存下来。3.2空间数据仓库构建方法近年来,空问数据仓库的研究也取得了较大进展,文献11给出了空间数据仓库的定义和特征,文献1121首先表述了空问数据仓库的三个核心思想.其次设计出了空间数据仓库的概念框架,着重描述了空间数据仓库的外部结构、内部结构以及各组成模块的工作流程,设计出了空间数据仓库认知过程的概念框图,并对认知的基本概念进行了描述,表述了认知过程14个世界模型和13个转换算子的基本内容,并用代数系统给出了严格定义。
.把空间信息融合进企业现有的数据仓库中,采用3种方式构建企业空间数据仓库[13:1)把空间信息作为多维模型中的维引入;2)把空间信息作为分析主题引入;3)在维和度量中都包含空间信息因此,计算并存储所有空间度量是不现实的。
文献[1411陡用空间索引树如?)在最细空间粒度上构建分组层次,作为空间维的分层,每个空间维需要建立一棵空间索引树。
空问度量类似数值度量.空间数据的聚集函数根据计算性质也可以分为3类|15:1)空间分配型'、)聚集函数,包括,等函数;2)空问代数型聚集函数,例如求个点的中心和几何体重一,都是空间代数型聚集函数;3)空间整体型聚集函数,例如等分割(-)11(-)函数.4数据仓库关键技术4.1确定数据粒度数据粒度是指数据仓库中保存数据的细化或综合程度。数据仓库中包含大量数据表,这些数据表中的数据以什么粒度来存储,会对信息系统的多方面产生影响。红做数据仓库设计时,设计者确定以数据的什么层次作为粒度的划分标准,将直接影响到数据仓库中数据的存储量及查询质量,井进一步影响到系统是否能满足最终用户的分析需求。一般情况下,根据将数据仓库中的数据划分为:详细数据、轻度总结、高度总结级或更多级旧。划分原则是:细化程度传奇散人越高,粒度越小;细化程度越低,粒度越大。确定数据粒度是数据仓库设计的基础,当数据粒度合理确定后.没计和实现的其他问题就会变得非常容易。
相反,如果没有合理地确定粒度,后续的工作就会很难进行下去。提出确定适当的粒度水平,首先要对数据的记录数和数据仓库的磁盘空间进行估算,接着考虑粒度的大小111。通常利用经验选择粒度水平,先创建部分数据仓库让用户使用,当用户产生新的需求后,再对粒度进行调整,最终建立整个数据仓库的粒度水平和存储方式。
4.2查询优化不论是数据库还是数据仓库,索引建立的好坏直接影响访问效率,索引查找是优化查询响应时间的重要方法,因而为提高数据仓库的处理能力,必须系统地使用索引技术。
位图索引可以突破树索引一些限制,提高查询处理和索引存取的效率。1181也认为传统的树索引并不能很有效地改善查询速度,对于只有少量的离散值来说使用树索引不是很好,更好的方法是利用位图索引。物化视图的选择策略是数据仓库研究的重要问题之一。
文献19提出了一种多维数据集中物化视图动态选择的新策略:.包括候选视图生成算法、物化视图选择算法、物化视图调整算法和物化视图动态调整算法。
文献[20提出用蚁群算法来解决物理空间约束下的物化视图选择问题,算法中应用信息素的局部和全局更新,并对每次迭代的最优解进行局部搜索.最终得出合理的解决方案。文献21]通过基二主动决策引擎日志的数据挖掘来找到分析规则的使用模式,从而为多维数据实视图选择算法提供重要依据:在此基础上没汁了3概率模型,并给出考虑受访概率分布的视图选择贪婪算法,以及结合视图挽留原则的视图动态调整算法。为缩短查询响应时间和提高决策支持能力,文献[22分析了现有方法处理大规模视图更新的不足,提出一种基于粗集约简发现中间视图依赖层次的方法,利用有效代价确定更新次序以达到更新费用最低,随后分析算法的复杂性并通过实验证明其有效性。4.3数据仓库的维护在大型数据仓库特别是在全球范围的大型跨国业的数据仓库设计和实现中,存在着许多问题。
大型数库中存储着海量数据,一般到达级,所以联机分析处理(0)服务器灵活、快进行查询是最关键的问题,因此大型数据仓库要支持高数据立方体计算技本栏目责任编辑:代影?-,一-,?囊叠摩与信囊譬.-2235.毋电知识与技术第7卷第10期(2011年4,11术、一定的索引优化策略和查询优化,另外大型数据仓库中数据的生命周期也很长,这给数据的更新、维护提出了较高的要求。
一般。数据仓库的刷新护是在夜间进行的,但对跨国公司来说.实际上没有真正时间传奇网络游戏来对数据仓库进行刷新和维护,刷新时限短且不以延长。在刷新中一旦发生故障,会严重影响企业的商业和动作。文献11针对大型数据仓库实现中的几个关键技术立方体的有效计算、增量式更新维护、索引优化、故障恢复。
在数据仓库的增量式更新中,一般采用的是关系变化差(值差)策略,利用值差进行增量式更新的关键是如何得到值差。数据仓库白维护的关键是如何从局部抽取数据以及抽取得到的数据再转换为全局实化视图。文献[231首先将一个或多个数据源上全局的实化视图分解为局部的单源视图集并保证实化视图和单源视图集一起满足自维护的条件。其次,将定义在各个信息源上局部的单源视图集整合成全局的实化视图,并重新定义实化视图与原来用户定义的实化视图等价。文献24认为实现实体化视图是提高系统响应时间的一个关键技术和有效的解决方案,在具体的实现过程中面临着实体化视图的维护问题.由于源数据的不稳定性,其数据的变化必须及时传播到实体化视图中。以保持实体化视图与源数据的变化一致性,否则会降低实体化视图中数据的新鲜度,并影响联机分析处理查询结果的真实性和有效性.针对视图的维护问题。提出了实体化视图的一种维护算法,它将使视图重计算代价最小化。4.4数据集成数据集成是一个逻辑的分解过程,其具体实现对不同的数据仓库产品本网络游戏此点推荐来说是不同的。在集成过程中,通常需要考虑以下问题:1)模式匹配。对于和时间相关的数据,自动采集数据的时间戳较密;而人工录入数据的时间戳较稀;事务处理的数据时间是非等间隔的;而数据恢复的时间戳是历史的。这些不同模式的匹配有元数据加以说明就避免数据集成带来的模式匹配错误。2)数据冗余。在一次更新中。可能会有一个日志文件中的多个属性同时对结果产生影响。而对同一个结果有影响的属性之间比较容易产生关联,那些可以由其他属性推导得出的属性,即可认为是冗余属性。3)数据值冲突。
在多个数据源中,表示同一实体的属性值可能不同,如数据类型、数量单位或编码等方面,这就需妻进行规范化的统一。在生物领域。文献[251针对生物数据源的分布性、异构性和动态性等特性,探讨生物信息技术服务支撑系统整体解决方案,构建基于基因本体的信息集成模式以实现生物语义学上的数据集成。
5数据仓库的应用研究为了将数据仓库技术和决策过程更好地结合,文献[26提出了支持决策全过程和面向客观事物系统的系统数据仓库的概念,并结合一般决策过程,对系统数据仓库的组成、特性和构建方法进行了论述。文献[271在介绍技术和数据仓库的基础上,分析了物流数据仓库的应用.给出物流信息数据采集流程、物流信息平台开发流程和决策支持子系统结构模型老传奇。对在技术下的数据仓库的决策功能进行了研究.指出技术与智能决策技术的复合应用能提高企业的决策能力和竞争力。为了对通信企业内海量历史数据进行充分利用,对管理者的科学决策提供有力支持,文献28通过应用数据仓库技术获取潜在有用信息,设计并实现了基于数据仓库的性能综合分析系统,详细阐述了数据仓库的设计与实现流程,解决了数据仓库构建、数据分析等技术问题。
文献29针对电信数据的特点,提出了基于数据仓库的电信闭环决策支持系统的实现方案;确定了电信领域的决策分析主题及相关的模型.阐述了采用基于数据仓库的四层结构的电信闭环决策支持系统的系统架构和功能。系统以数据仓库为基础。
运用联机分析处理、数据挖掘等分析决策手段实现了对电信数据多角度、多层次的查询及决策功能。文献[30认为商业银行是数据密集型企业,每天都会产生巨大的业务数据,需将业务数据整理成有价值的信息并对这些信息进行综合处理分析。随着商业银行经营战略的变革、信息技术的快速发展,商业银行信息化已经进入一个崭新的时代,数据仓库技术已经成为商业银行业务分析和营销决策不可缺少的重要工具之一。是商业银行构建的基设置SF础。6总结与展望数据仓库是20世纪90年代发展起来的新技术,在目前极其复杂而且竞争激烈的商业环境中,利用数据仓库技术可以帮助决策者进行决策,给企业带来经济效益。但数据仓库的实现特别是大型数据仓库的实现将面临许多技术问题,要真正发挥数据仓库的作用。开发一个灵活、高效的数据仓库,还有许多问题需要进一步研究和探讨。目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此也应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶.以支持我国的空间数据基础设施建设。参考文献:『11.[].3.:,2002:20-23.2,.:[].,2001.3陈慧萍,陈岚峰,王建东.大型数据仓库实现技术的研究田.计算机工程与设计,2006,27(21):3956-3958,3961.4肖创柏,冯维文,刘时光.基于语义表示的数据仓库构建方法叨.计算机工程,2007,33(10):73-75,78.5]张晓倩,顾新建,潘旭伟.面向纺织企业的数据仓库构建方法叨.纺织学报,2006,27(1).61王小洁,朱程荣.面向系统的数据仓库的设计与实现.计算机工程与设计,2007,28(21):5088?5090.阴托,.:.3..,。
2005一134.嘲鲍玉斌,孙焕良,于戈,等.星链模型:一种数据仓库概念设计模型叨.小型微型计算机系统,2005,26(2):235?238.9,,,1.[].2004,2004.10鲍蓉.多版本数据仓库模型设计].计算机工程,2008,34(11):91?92,95.(下转第2255页)本栏目责任编辑:代影第7卷第10期(2011年4月)电知识与技术171,.-[].,2003,25(1):32-41.18?,?,.-[].2008,:-,2008:91?100.9],.叨.,2006,3(5):29?32.201,1.?:,.]3,2002.182-191.21-,?,-,1.-[]12-(05),2005.645-651.[22,.,1.-[]4(2007)。.2007:627-631.23,.,?[].,2003:1?6.[24..-215781.0(1.2)[.[1997-09-06]:...~.[25],.:,[.[1998?09-12]:...-.[26,1.[].2008:?,21-25,2008,71-80.27李保利,陈玉忠,俞士汶.信息抽取研究综述].计算机工程与应用,2003(10):1?5.128杜小勇,李曼,王珊.本体学习研究综述叨.软件学报,2006,179):1837?1847.29范莉娅,王爱民,肖田元.本体集成方法评价指标体系及其应用研究.计算机集成制造系统,2007,13(5):911-917.301振东,董强.知网..1999?03.:..3.,2.0.:..[32,.:[∥,.99(5)1999:1-15.(上接第2236页)111邹逸江.空问数据仓库的认知过程与代数描述[.地理与地理信息科学,2009,25(1):22?26日志,39.121邹逸江.空间数据仓库的概念框架和认知过程[.计算机应用研究,2007,24(5):186?189.131梁银,张虹.企业空间数据仓库的构建方法叽.山东大学学报:理学版,2007.42(9):51-55.|1410,1.?『1..:,2003:48?55.『151,.:[[:,2003.161李静.数据仓库中的数据粒度确定原贝|[1.计算机与现代化,2007(2):57?58,61.17,.[....?.,2004:425?433.[181秦学勇,姚燕生.可扩展数据仓库若干关键问题研究与分析[.计算机技术与发展。2006,16(12):136?138.[19张东站,黄宗毅,薛永生.?一种多维数据集物化视图动态选择新策略.计算机研究与发展,2008,45(5):901?908.『20顾军华。
赵秀丽,谭庆.蚁群算法在物化视图选择问题中的应用叨.计算机应用,2007.27(1):2763?2765.[21林子雨,杨冬青,宋国杰,等.实时主动数据仓库中多维数据实视图的选择.软件学报,2008,19(2):301?313.[22李义海,冯玉才,马晓鸣,等.基于粗集理论的视图分层更新方法.计算机科学,2008(1):121-125.23毛莉,潘久辉.数据仓库自维护下视图分解系统的设计与实现.计算机工程与没训-,2007,28(15):3800?3802.24]郭庆.数据仓库中实体化视图的一种维护算法.暨南大学学报:自然科学与医学版,2007,28(3):259?262,271.25杨森,夏燕,曹顺良,等.语义异构生物数据源中的数据集成与更新.计算机工程,2008,34(8):38-40.26]王宁,王延章,于淼.面向一般决策过程的数据仓库系统研究.计算机集成制造系统,2006,12(1):139?143,160.127刘学敏,程文明.基于技术的物流数据仓库应用研究.铁道运输与经济,2007,29(1):63?65.281罗坤莉,李志蜀.基于数据仓库构建性能综合分析系统.计算机应用,2008,28(06):166?168.129壬晓虹,1三国仁,于勇前,等.电信闭环决策支持系统的研究与实现.计算机应用研究,2008,25(4):1247?1249,1253.30下李,赵树宽.数据仓库对商业银行的支持研究[].情报科学,2008(3):400-403.本拦目责任编辑:代影-一。,:一与信息蕾,?2255数据仓库相关技术研究综述作者:杨莉国,欧付娜,刘庆海,程海涛,卢亮,-,-,-,-,作者单位:青岛理工大学费县校区机电系,山东,临沂,273400刊名:电脑知识与技术英文刊名:年,卷(期):2011,7(10)。
上一篇:巧用执行计划优化SQLServer数据库查询
下一篇:基于InternetIntranet的网络监控系统分析与设计
声明:本站文章是嘟嘟虾传奇游戏网站长编辑亲自完成。有的文章来源于网络请勿转载。
相关文章推荐导读:
