论数据挖掘技术的应用
随着信息技术的高速发展,各组织机构积累的数据量急剧增长。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘(Data Mining)就是为顺应这种需要应运而生发展起来的数据处理技术,是知识发现的关键步骤。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
请围绕"论数据挖掘技术的应用"论题,依次从以下3个方面进行论述:
①概要叙述你参与分析和开发的软件项目及你所担任的主要工作。
②数据挖掘的主要任务是什么?具体论述你在项目中使用数据挖掘技术所解决的问题。
③数据挖掘的方法主要有哪些?分析并讨论你所选择的数据挖掘方法,简述其具体实现过程和实际应用效果。
写作要点
本题考查数据挖掘技术的应用。其实从应用的角度,或者从商业的角度来看,数据挖掘这一词在业内出现的频度已不如以前那么高了。因为数据挖掘通常是不独立进行的,它涉及数据源的获取问题,即先要建立一个数据仓库,再从中"挖"数据。这其实就是我们经常看到的是"BI"--商业智能。商业智能我们可以理解为是:数据仓库+数据挖掘。这也就确定了本文的项目背景。
文章最好是把这一层关系讲清楚,写商业智能的项目,如果没有项目经验,直接杜撰出数据挖掘项目来写文章,风险会很高,很容易让人看出文章的"做假"行为。除此以外,文章可按传统的写法组织内容。即按问答方式组织文章的主体脉络,并加入项目信息,同时做好承上启下的句子进行段落衔接。
具体的写作规范如下:
①结合自己所参与的软件项目,概要介绍该项目的背景及主要内容,并明确指出在其中所承担的主要任务和开展的主要工作。
②数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
关联分析。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性。
聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测的精度和不确定性被重点关注,通常用预测方差来度量。
时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
论文中须明确指出自己在该项目应用数据挖掘技术所要解决的具体问题是什么。
③主要的数据挖掘方法:
神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分三大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。
遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。
决策树方法:决策树是一种常用于预测模型的算法,它通过将大量数据有目的地分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法等。
粗集方法:粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。
覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则。比较典型的算法有michalski的aqll方法等。
统计分析方法:在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。
模糊集方法:利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的此亦彼性的。
论文中必须明确指出使用了上述7种方法中的哪种或哪几种数据挖掘方法,并给出该方法的具体实现过程;分析所选择的数据挖掘方法的实现效果。
( )要构思技术、设计技术,指导整个技术系统的实施。
软件系统架构
博学公司欲开发一个车辆定速巡航控制系统,以确保车辆在不断变化的地形中以固定的速度行驶。如图12-6所示给出了该系统的简化示意图。表12-2描述了各种系统输入的含义。
公司的领域专家对需求进行深入分析后,将系统需求认定为:任何时刻,只要定速巡航控制系统处于工作状态,就要有确定的期望速度,并通过调整引擎油门的设定值来维持期望速度。
在对车辆定速巡航控制系统的架构进行设计时,公司的架构师王工提出采用面向对象的架构风格,而李工则主张采用控制环路的架构风格。在架构评估会议上,专家对这两种方案进行综合评价,最终采用了面向对象和控制环路相结合的混合架构风格。
阅读以下关于软件系统架构选择的说明,在答题纸上回答问题1至问题3。
博学公司欲针对Linux操作系统开发一个KWIC(Key Wordin Context)检索系统。该系统接收用户输入的查询关键字,依据字母顺序给出相关帮助文档并根据帮助内容进行循环滚动阅读。在对KWIC系统进行需求分析时,公司的业务专家发现用户后续还有可能采用其他方式展示帮助内容。根据目前需求,公司的技术人员决定通过重复剪切帮助文档中的第一个单词并将其插入到行尾的方式实现帮助文档内容的循环滚动,后续还将采用其他的方法实现这一功能。
在对KWIC系统的架构进行设计时,公司的架构师王工提出采用共享数据的主程序.子程序的架构风格,而李工则主张采用管道.过滤器的架构风格。在架构评估会议上,大家从系统的算法变更、功能变更、数据表示变更和性能等方面对这两种方案进行评价,最终采用了李工的方案。
论文:论信息系统的安全性与保密性设计
在企业信息化推进的过程中,需要建设许多的信息系统,这些系统能够实现高效率、低成本的运行,为企业提升竞争力。但在设计和实现这些信息系统时,除了针对具体业务需求进行详细的分析,保证满足具体的业务需求之外,还要加强信息系统安全方面的考虑。因为如果一个系统的安全措施没有做好,那么系统功能越强大,系统出安全事故时的危害与损失也就越大。
请围绕“信息系统的安全性与保密性”论题,依次从以下3个方面进行论述:
(1)概要叙述你参与分析设计的信息系统及你所担任的主要工作。
(2)深入讨论作者参与建设的信息系统中,面临的安全及保密性问题,以及解决该问题采用的技术方案(3)经过系统运行实践,客观的评价你的技术方案,并指出不足,提出解决方案。
论文:论开放系统应用的互操作性技术
如今建设的计算机应用信息系统往往已是基于网络的开放式信息处理平台。其中,应用的互操作性技术已成为迫切需要解决的一个关键技术。根据你对当前开放系统环境的认识和工程系统的开发的经验,论述下列3个问题:
①简述应用互操作性与应用可移植性这两个相关而又不相同的概念。具体说明你所采用的开放式网络体系结构和遇到的应用互操作性问题。
②具体叙述你为了保证开放系统的应用互操作性,采用过哪些主要技术和措施,它们的效果如何?
③简述开放式网络体系结构的一般设计原则,以及应用互操作性技术在其中的地位与发展方向。
论文:论信息系统的架构设计架构是信息系统的基石,对于信息系统项目的开发来说,一个清晰的架构是首要的。传统的开发过程可以划分为从概念直到实现的若干个阶段,包括问题定义、需求分析、软件设计、软件实现及软件测试等。架构的建立应位于需求分析之后,软件设计之前。
请围绕“信息系统的架构设计”论题,分别从以下3个方面进行论述:
(1)简要叙述你参与分析和设计的信息系统(项目的背景、发起单位、目的、项目周期、交付的产品等),以及你在该项目中的工作。
(2)结合你的项目经历,论述在系统开发中,为什么要重视架构设计。详细讨论你是如何设计系统架构的(3)你的架构设计中还存在哪些问题?如何改进?
论文:论混合软件架构的设计
C/S架构将应用一分为二,服务器负责数据管理,客户机完成与用户的交互任务。
B/S架构是随着Internet技术的兴起,对C/S架构的一种变化或者改进的结构。在B/S架构下,用户界面完全通过WWW浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现。由于C/S架构和B/S架构各有其优点和缺点,可以适用在不同的应用场合,在某些场合中,可能把C/S架构和B/S架构混合进行设计,更能满足系统的需求,这些需要包括功能上的,也包括性能上的。
请围绕“混合软件架构的设计”论题,依次对以下3个方面进行论述。
(1)概要叙述你参与设计和开发的软件项目以及你所担任的主要工作。
(2)简要说明C/S架构和B/S架构的优点和缺点。
(3)详细说明C/S和B/S混合架构的实现方式,在你的系统中具体是如何实现这种混合架构的,这种设计有什么优点。
论文:论软件架构的选择与应用
软件架构风格是描述某一特定应用领域中系统组织方式的惯用模式(idiomatic paradigm)。对软件架构风格的研究和实践促进了对设计的重用,一些经过实践证实的解决方案也可以可靠地用于解决新的问题。架构风格的不变部分使不同的系统可以共享同
一个实现代码。只要系统是使用常用的、规范的方法来组织,就可使别的设计者很容易地理解系统的架构。例如,如果某人把系统描述为C/S模式,则不必给出设计细节,我们立刻就会明白系统是如何组织和工作的。请围绕“软件架构的选择与应用”论题,依次对以下3个方面进行论述。
(1)概要叙述你参与设计和开发的软件项目以及你所担任的主要工作。
(2)详细论述你是如何根据项目的实际需要设计软件架构的,特别是如何选择多种不同的架构来实现系统的。
(3)分析你采用的架构所带来的效果,你的设计还存在哪些不足之处。
RMO是一家运动服装制造销售公司,计划在5年时间内将销售区域从华南地区扩展至全国范围。为了扩大信息技术对于未来业务发展的价值,公司邀请咨询顾问帮助他们制订战略信息系统规划。经过评审,咨询顾问给出的战略规划要点之一是建立客户关系支持系统(CRSS)。RMO公司决定由其技术部成立专门的项目组负责CRSS的开发和维护工作。
项目组在仔细调研和分析了系统需求的基础上,确定了基于互联网的CRSS系统架构。但在确定系统数据架构时,张工认为应该采用集中式的数据架构,给出的理由是结构简单、易维护且开发及运行成本低;而刘工建议采用分布式的数据架构,并提出在开发中通过"局部数据库+缓存"的读写分离结构实现,具有较好的运行性能和可扩展性。
项目组经过集体讨论,考虑到公司的未来发展规划,最终采用了刘工的建议。
RMO是一家运动服装制造销售公司,计划在5年时间内将销售区域从华南地区扩展至全国范围。为了扩大信息技术对于未来业务发展的价值,公司邀请咨询顾问帮助他们制订战略信息系统规划。经过评审,咨询顾问给出的战略规划要点之一是建立客户关系支持系统(CRSS)。RMO公司决定由其技术部成立专门的项目组负责CRSS的开发和维护工作。
项目组在仔细调研和分析了系统需求的基础上,确定了基于互联网的CRSS系统架构。但在确定系统数据架构时,张工认为应该采用集中式的数据架构,给出的理由是结构简单、易维护且开发及运行成本低;而刘工建议采用分布式的数据架构,并提出在开发中通过"局部数据库+缓存"的读写分离结构实现,具有较好的运行性能和可扩展性。
项目组经过集体讨论,考虑到公司的未来发展规划,最终采用了刘工的建议。
论数据挖掘技术的应用
随着信息技术的高速发展,各组织机构积累的数据量急剧增长。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘(Data Mining)就是为顺应这种需要应运而生发展起来的数据处理技术,是知识发现的关键步骤。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
请围绕"论数据挖掘技术的应用"论题,依次从以下3个方面进行论述:
①概要叙述你参与分析和开发的软件项目及你所担任的主要工作。
②数据挖掘的主要任务是什么?具体论述你在项目中使用数据挖掘技术所解决的问题。
③数据挖掘的方法主要有哪些?分析并讨论你所选择的数据挖掘方法,简述其具体实现过程和实际应用效果。
论数据库的安全性设计
通常,信息系统的安全性指的是采取必要的安全保护方面的技术和管理措施,保护硬件、软件和数据不因偶然的或恶意的原因而受到破坏、更改和泄露。其中数据库的安全性设计有着十分重要的作用(包括物理安全与逻辑安全)。
根据你实际参与开发和设计的经验,论述下列3个问题:
①简述你开发与设计的软件概要和你所担任的工作。
②具体叙述你在数据库应用系统开发中是如何使用安全性设计技术的,包括采用过哪些主要技术,遇到过哪些实际问题,采取过哪些相应的措施。
③简述你所采用的数据库安全性设计技术的效果,以及你有哪些主要的使用体会和进一步的设想。
免费的网站请分享给朋友吧