0508《数据挖掘》2018年6月期末考试指导

发布时间:2023-11-20 08:11:03浏览次数:11
《数据挖掘》 年  月期末考试指导一、考试说明(一)说明满分为  分,考试时间为  分钟考试形式为开卷。(二)题型及各题型所占分数和相应的答题技巧.单项选择题(共  题,每题  分,共计  分)答题技巧:选择最正确的那个选项,可以考虑排除法等选择技巧。.填空题(共  题,每题  分,共计  分)答题技巧:按照题目要求,找准知识点,填写正确内容。.简答题(共  题,每题  分,共计  分)答题技巧:按照题目要求,找准知识点,仔细作答。.应用题(共  题,每题  分,共计  分)答题技巧:抓住主要考察的知识点,尽量规范、清晰的书写,回答有条理,注意答案的正确性与完整性,对于有多问的,要按题目顺序依次作答。二、复习重点内容第 1 章 引 言1.数据挖掘数据挖掘是指从大量数据中提取或“挖掘”知识。许多人把数据挖掘视为另一个常用术语数据中的知识发现或  的同义词,而另一些人知识把数据挖掘视为知识发现过程的一个基本步骤(数据清理数据集成数据选择数据变换数据挖掘模式评估知识表示)。2.数据仓库数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。其通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据仓库和数据集市的区别:数据仓库收集了跨部门的整个组织和主题信息,因此它是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模;而数据集市是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。2.数据挖掘功能可以挖掘什么类型的模式一般而言,数据挖掘任务可以分为两类:描述和预测。描述性挖掘任务描述数据库中数据的一般性质。预测性挖掘任务对当前数据进行推断,以做出预测。(1)概念/类描述:特征化和区分数据可以与类或概念相关联,用汇总的、简洁的和精确的方式描述各个类和概念你可能是有用的。这种累或概念的描述成为类概念描述。这种描述可以通过数据特征化、数据区分和数据特征化和比较这三种方法的得到。数据特征化:目标类数据的一般特性或特征的汇总。数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。(2)挖掘频繁模式、关联和相关频繁模式:在数据中频繁出现的模式,存在多种类型的频繁模式,包括项集、子序列 答案:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。5、【答题方法】参考第 2 章的重点内容,理解中位数的求法。答案:3。(三)简答题1、【答题方法】答案:在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点进行测试时能获得关于被测试记录最大的类别信息。2、【答题方法】)平均值为 x=1n∑i=1nxi=111∑i=111xi=31. 7 中值位数是 该数据的模是  和 因为该数据具有两个模,所以该数据为双模态 写出“双模态”中列数为 ),&*$/'!)*+!"K),$!""!K1"L。第一个四分位数:MLL1,0第三个四分位数为 ML1JL03。数据的五数概括为 ,,,3,1。3、【答题方法】参考第 1 章的重点内容,答题要全面具体,将数据挖掘作为知识挖掘发现过程的一个基本步骤。答案:由以下步骤迭代序列组成:L数据清理(消除噪声和不一致数据);L数据集成(多种数据源可以组合在一起);L数据选择(从数据库中提取与分析任务相关的数据);L数据变换(数据变换后统一成适合挖掘的形式,如通过汇总或聚集操作);。数据挖掘(基本步骤,使用智能方法提取数据模式);3L模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式);1L知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。、【答题方法】参考第 2 章的重点内容,理解遗漏数据即为缺失值。答案:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。(四)应用题1、【答题方法】)具有线形关系)x−=∑i=05xi=16(3+8+9+13+3+6)=7y−=∑i=05yi=16(30+55+64 +7 2+36+43 )=50 β=∑i=05(xi−x−)( yi− y−)∑i=05(xi−x−)2=(3−7 )(30−50)+(8−7 )(55−50 )+. ..+(6−7 )(43−50 )(3−7 )2+(8−7)2+.. .+(6−7 )2=4 .2α=50−7⋅4 .2=20 .6Y =20 . 6+4 .2 X)十年后的收入达到I3L32、【答题方法】)N$,.', D<E+<&和 N$,.', D<*)O,&/')分类 或 *P##A*,%#*=$)0*A, D<@'.,#', '#, D, )$, ,$/, *$&,$ ,$&' '#=$服务性能,安全,监控,入侵检测  ) HF,A'  )*#F,$'A'*$,$/  F*  O''$  '&  '.,AD  <  $' ? *P#Q?#A*,%#*=$,?'#$,&'? O' F'%  F* #)O,$' F, '#F$,B'?, F F''<*##* ' ' *$& *,$,$/&* *' L考试指导使用说明:本考试指导只适用于 J 学期 3 月期末考试使用,包括正考和重修。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或课程  。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利! 和自结果。频繁项集:频繁地在事务数据集中一起出现的项的集合,如牛奶和面包。频繁出现的子序列:如顾客倾向于先购买  再购买数码相机然后再购买内存卡这样的模式是一个(频繁)序列模式。子结构:可能涉及不同的结构形式,如图、树或格,可以与项集或子序列结合在一起如果一个子结构频繁地出现,则称它为(频繁)结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关,频繁项集挖掘是频繁模式挖掘的最简单形式。(3)分类和预测分类(classicaon):找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象类。导出模型是基于对训练数据集(集类标号已知的数据对象)的分析,其可以用多种形式表示,如分类()规则、决策树、数字公式或神经网络。决策树是一种类似于流程图的树结构,其中给每个节点代表一个属性值上的测试,每个分枝代表测试的一个输出,而树叶代表类或类分布。神经网络是一组类似于神经元的处理单元,单元之间加权连接。还有构造分类模型的其他方法,如朴素贝叶斯分类、支持向量机和  最近邻分类。预测(predicon):建立连续值函数模型。属于预测可指数值预测和类标号预测,但本书只要指数值预测。回归分析是一种最常使用的数值预测的统计学方法。相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。(4)聚类分析聚类(clustering)分析数据对象不考虑已知的类标号,而不是像分类和预测分析标号类的数据对象。(5)离群点分析数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。可以假定一个数据分布或概率模型,使用统计检验检测离群点,或者使用距离度量,将远离任何簇的对象视为离群点。3.所有模式都是有趣的吗存在一些模式兴趣度的客观度量。对于  的关联规则,一种客观度量是规则的支持度( )。规则的支持度表示满足规则的事物数据库的事务所占的百分比。支持度可以去概率 !",其中, 表示同时包含  和  的事务,即项集  和  的并。关联规则的另一种客观度量是置信度(#$%&'$#'),它评估发现的规则的确定性程度。置信度可以取条件概率 !",即包含  的事务也包含  的概率。即: ()!"#$%&'$#'()!"一般,每个兴趣度度量与一个阈值相关联,该阈值可以由用户控制。例如,不满足置信度阈值 (的规则可以认为是无趣的。低于阈值的规则可能反映噪声、异常或少数情况,可能不太有价值。尽管客观度量可以帮助识别有趣的模式,但仅有这些还不够,还要结合反映用于需要和兴趣的主观度量。第 2 章 数据预处理数据预处理的形式有数据清理、数据集成、数据变换和数据归约。1.描述性数据汇总这些描述性统计量有助于理解数据的分布。从数据挖掘的角度,我们需要考察如何在 大型数据库中有效计算它们。特殊地我们需要引进分布式度量、代数度量和整体度量的概念。知道我们处理的度量类型可能有助于我们选择它的有效实现。分布式度量(distribuve measure)是一种可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。)!"和 #$ !"都是分布式度量,因为他们都可以用这种方法计算。其它例子包括 )*+!"和 ),$!"。代数度量(algebraic measure)是可以通过应用一个代数函数于一个或多个分布度量计算的度量。-.'*/'!或 )'*$!""是代数度量,因为它可以通过 )!"#$ !"计算。当我们计算数据立方体时,)!" 和 #$ !"可以在预计算时保留。这样,导出数据立方体的-.'*/' 是直截了当的。另外还有加权算术均值或加权平均是代数度量的有一个例子。整体度量(holisc measure)是必须对整个数据集计算的度量。整体度量不能通过将给定数据划分成子集合并每个子集上度量得到的值来计算。中位数是整体度量的一个例子。计算整体度量的开销比计算上述分布度量的开销大得多。(1)中心趋势度量:均值、中位数、众数和中列数。(2)离中区域度量:四分位数、四分位数极差和方差。数值数据趋向于分散的程度称为数据的离差或方差。数据离中趋势的最常用度量是极差、五数概括(基于四分位数)、中间四分位数极差和标准差。设 +,+,+,…,+是某属性的观测值集合,假定数据以数值递增序列排列。该集合的极差:最大值和最小值之差。该集合的四分位数:中位数是第  个百分位数,四分位数是最常用的百分位数。第一个四分位数记作 0,是第  个百分位数;第三个四分位数记作 0,是第 1 个百分位数。四分位数(包括中位数)给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量,它给出被数据的中坚一般所覆盖的范围。该距离称之为中间四分位极差(02),定义为:IQR= Q3-Q100 和中位数都是整体度量。2.数据清理:缺失值怎样才能为某一属性填上丢失的值?具体方法如下:() 忽略元组;() 人工填写缺失值;() 使用一个全局常量填充缺失值;() 使用属性的均值填充缺失值;() 使用与给定元组属同一类的所有样本的属性均值;(3) 使用最可能的值填充缺失值。第 3 章 数据仓库与 OLAP 技术概述数据仓库的四个关键特征:,面向主题的、集成的、时变的、非易失的。1、 度量的分类和计算数据立方体度量是一个数值函数,可以对数据立方体空间的每一个点求值。度量可以根据所用的聚集函数类型可以分成三类(即分布的、代数的和整体的)。分布的:一个聚集函数是分布的,如果它能用如下分布方式进行计算:设数据划分为n 个集合。将函数用于每个划分,得到 n 个聚集值。如果将函数用于 n 个聚集值得到的结果与将函数用于整个数据集(不划分)得到的结果一样,则该函数可以用分布方式计算。例如,对于数据立方体,#$ ()可以这样计算:首先将数据立方体分割成子立方体的集 合,对每个子立方体计算 #$ (),然后对这些子立方体得到的计数求和。因此,#$ !"是分布聚集函数。同理,)!"),$!"和 )*+()也是分布聚集函数。一个度量是分布的,如果它可以用分布聚集函数得到。分布度量可以有效地计算,因为它们可以用分布方式进行计算。代数的:一个聚集函数是代数的,如果它能够用具有 4 个阐述的代数函数计算(其中4 是有界正整数),而每个参数都可以用一个分布聚集函数求得。例如 avg()(平均)可以用 sum()/count()计算,其中 sum()和 count()都是分布聚集函数。一个度量是代数的,如果它可以用代数聚集函数得到。整体的:一个聚集函数是整体的,如果描述它的子聚集所需的存储没有常数界。即不存在一个由 M 个阐述的代数函数进行这一计算(其中 M 是常数)。例如 )'&,*$!"等。一个度量是整体的,如果它可以用整体聚集函数得到。第 4 章 数据立方体计算与数据泛化数据立方体计算是数据仓库实现的一项基本任务。数据立方体的全部或部分预计算可以大幅度降低响应时间,提高联机分析处理性能。数据泛化通过将相对低层次的值(如属性 */' 的数值)用较高层的概念(如青年,中年和老年)置换来汇总数据。第 5 章 挖掘频繁模式、关联和相关1.频繁模式及其重要性 ()频繁模式:是频繁地出现在数据集中的模式(如项集、子序列或子结构)。()频繁模式分析的重要性 揭示数据之间固有的联系;许多数据挖掘任务的基础 如:联系、相关、因果关系分析;子序列、结构模式;分类;聚簇;其他应用。 2.频繁项集、闭项集和关联规则设 5,,…)6是项的集合。设任务相关的数据  是数据库事务的集合,其中每个书屋  是项的集合,使得 ⊆。每一个事务有一个标识符,称为 。设 - 是一个项集,事务  包含 - 当且仅当 -⊆。关联规则是形如 -7 的蕴含式,其中 -⊂7⊂,并且 -¿7∅。规则 -7 在事务集  中成立,具有支持度  和置信度 #。 (-7)!-7"#$%&'$#'(-7)!-7"(1)频繁项集:项的集合称为项集。包含  个项的项集成为  项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。 ()!"定义的项集支持度有时称为相对支持度,而出现频率称作绝对支持度。如果项集  的相对支持度满足预定义的最小支持度阈值(即  的绝对支持度满足对应的最小支持度计数阈值),则  是频繁项集。频繁  项集的集合通常记作 8。condence(A=>B)= P(A|B)=Support(A∪B) = Support_count(A∪B)(2)关联规则:描述一个项目集合与其他项目集合相关性的规则 关联规则形式:-79 #$%&'$#':规则的支持度(support)和置信度(condence)是规则兴趣度的两种度量。他们反 映发现的规则的有用性和确定性。典型情况下,如果关联规则同时满足最小支持度阈值!),$; 和最小置信度阈值!),$;#$<",则此关联规则是有趣的,并称为强规则。这些阈值可以由用户或领域专家设定,也可进行其它分析,揭示关联项之间的有趣的统计相关。例如:#) '*$=.,;>?*'9 (#$%&'$#'3(:表示其关联规则支持度为 (意味着所分析的所有事物的 (同时购买计算机和杀毒软件。置信度 3(意味着购买计算机的顾客 3(也购买了杀毒软件。关联规则的挖掘过程:首先,找出所有的频繁项集:根据定义,这些项集的每一个出现的频繁性至少与预定义的最小计数 ),$; 一样。最后,由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。(3)闭频繁项集和极大项集:如果不存在真超项集 Y(Y是X的真超项集,如果X是Y的真子项集,即如果X⊂Y。换言之,X中的每一项都包含在Y中,但是Y中至少有一个项不再X中。)使得  与  在 @ 中有相同的支持度计数,则称项集  在数据集 @ 中是闭的。相机  是数据集 @ 的闭频繁项集,如果  在 @ 中是闭的和频繁的。项集  是 @ 中的极大频繁项集(或极大项集),如果  是频繁的,并且不存在超项集  使得 ⊂ 并且  在 @ 中是频繁的。闭频繁项集的集合包含了频繁项集的完整信息。极大频繁项集由包含了闭频繁项集的完整信息。4.Apriori 算法的步骤 -,, 算法是一个挖掘关联规则的算法,是 -/*?*A 等设计的一个基本算法,这是一个采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的。-,, 算法的设计可以分解为两步骤来执行挖掘:step1、从事务数据库(D)中挖掘出所有频繁项集 支持度大于最小支持度 ),$@ 的项集( ')' )称为频集('B'$  ')' "首先,需要挖掘出频繁 项集;然后,继续采用递推的方式来挖掘频繁 项集(),具体做法是:在挖掘出候选频繁 项集()之后,根据最小置信度 ),$@ 来筛选,得到频繁 项集。最后,合并全部的频繁 项集()。 Step2、基于第 1 步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。 置 信 度 大 于 给 定 最 小 置 信 度 ),$$< 的 关 联 规 则 称 为 频 繁 关 联 规 则 ( 'B'$ -#,*=$2A')。在这一步,首先需要从频繁项集入手,首先挖掘出全部的关联规则(或者称候选关联规则),然后根据 ),$$< 来得到频繁关联规则。5.相关度量相关规则不仅用支持度和置信度度量,还用项集 - 和 7 之间的相关度量。有许多不同的相关度量可供选择。Life 就是简单的相关度量,意为提升度,定义如下。项集 - 的出现独立于项集 7 的出现,如果 !-7"!-"!7";否则作为时间项集 - 和 7 是以来的和相关的。提升度的计算公式:A,>(-7)!-7"!-"!7"第 6 章 分类和预测1、用决策树归纳分类决策树归纳是从类标记的训练元组学习决策树。决策树是一种类似于流程图的树结构; 其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点(或终节点)存放一个类标号。树的最顶层节点是根节点。2、贝叶斯定理!"是后验概率,或在条件  下, 的后验概念;!"是先验概率,或  的先验概率;()是条件  下, 的后验概率;贝叶斯定理是:P(X|H)=P(H|X) P(H)P(X)3、决策树提取分类规则互斥意味着不可能存在规则冲突,因为没有两个规则被相同的元组触发。(每个树叶有一个规则,并且任何元组都只能映射到一个树叶。)穷举意味着对于每种属性值组合存在一个规则,使得该规则不需要默认规则。因此,规则的序不重要他们是无序的。4、关联规则的元规则元规则使用户可以说明他们感兴趣的规则的语法形式。规则的形式可以作为约束,帮助提高挖掘过程的效率。元规则可以根据分析者的经验、期望或对数据的直觉或者根据数据库模式自动产生。第 7 章 聚类分析1.区间标度变量描述距离度量,通常用于描述对象的相异度,包括欧几里得距离、曼哈顿距离以及闵可夫斯基距离。区间标度度量是一种粗略线性标度的连续度量。典型的例子包括重量和高度,经度好纬度坐标(如聚类房屋时),以及气温。选用的度量单位将影响聚类分析的结果。一般而言,表示变量的单位越小,变量可能的值域就越大,这样对结果聚类结构的影响也越大。为避免对度量单位选择的依赖,数据应当标准化。标准化度量视图给所有变量相等的权重,但有一些应用的用户可能想给某些变量比其他变量较大权重亦可。标准化后或某些应用中不需要表转化,区间标度变量描述的对象间的相异度(或相似度)通常基于没对对象间的距离计算:(1)欧几里得距离d (i , j)=√∑k =1n( xik-xjk)2其中 ,!+,,+,,…,+,$"和 C!+C,+C,…,+C$"是两个 $ 维数据对象(2)曼哈顿距离(d (i , j)=∑k=1n|xik-xjk|)其中 ,!+,,+,,…,+,$"和 C!+C,+C,…,+C$"是两个 $ 维数据对象例:x1=(1,2),x2=(3,5),则其欧几里得距离是√(22+32)=3.61。曼哈顿距离是 2+3=5。(3)闵可夫斯基距离 d (i , j)=p√∑k=1n( xik-xjk)p其中 ,!+,,+,,…,+,$"和 C!+C,+C,…,+C$"是两个 $ 维数据对象。另外  是正整数,当  时,它表示曼哈顿距离;当  时,表示欧几里得距离。(4)加权的欧几里得距离d (i , j)=√∑k =0nwk( xik-xjk)2其中 ,!+,,+,,…,+,$"和 C!+C,+C,…,+C$"是两个 $ 维数据对象2.向量对象在某些应用中,如在信息检索、文本文档聚类和生物学分类中个,需要对包含大量符号实体(如关键词和短语)的复杂对象(如文档)进行比较和聚类。为了测量复杂对象间的距离,通常期望放弃传统的断粮距离计算,而引入非度量的相似度函数。为了比较两个向量 +D,有几种方法可以定义这样的相似度函数 !+D"。3.主要聚类方法的分类大体上,主要的聚类算法可以划分成如下几类:划分方法:给定 $ 个对象或数据元组的数据库,划分方法构建数据的  个划分,每个划分表示一簇,$。也就是说,将数据划分为  组,满足如下的要求:)每组至少包含一个对象,)每个对象必须只属于一组。注意,在某些模糊划分技术中第二个要求可以放宽。层次方法:层次方法创建给定数据对象集的层次分解。层次方法三类,有 72 方法、2E 基于簇间的互联性进行合并方法和 F*)'A'$ 探查层次聚类的动态建模方法。基于密度的方法:大部分划分方法基于对象之间的距离进行聚类对象。共享最近邻算法它结合了基于密度方法和 2E 算法思想(层次代表算法的代表性算法),保留  最近邻简化相似矩阵和个数。基于网格的方法:基于网格的方法把对象空间量化为有限数目的单元,形成一个网格结构。@G 是基于网格方法的典型例子。H*.'A ' 把小波变换用于聚类分析,基于密度和网格两种方法。基于模型的方法:基于模型的方法为每簇假定一个模型,并寻找数据对给定模型的最佳拟合。另外,聚类高维数据和基于约束的聚类也是主要的聚类方法。 三、重点习题(一)单项选择题、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? 频繁模式挖掘 分类和预测 数据预处理 数据流挖掘、只有非零值才重要的二元属性被称作.计数属性 离散属性 非对称的二元属性 对称属性、假定用于分析的数据包含属性 。数据元组中  的值如下(按递增序):,,,,,,,,,,,,,,,,  工作年数  年薪(单位: I )J3313,,,,,,,,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为 。第二个箱子值为 .    、频繁项集、频繁闭项集、最大频繁项集之间的关系是:.频繁项集⊂频繁闭项集 最大频繁项集.频繁项集 频繁闭项集⊂最大频繁项集.频繁项集⊂频繁闭项集⊂最大频繁项集.频繁项集 频繁闭项集 最大频繁项集、决策树中不包含一下哪种结点 根结点( 内部结点( )外部结点(! ) 叶结点( ")(二)填空题、元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为 元数据和 元数据两类。、客户流失的原因,大致可以分为两类:自愿流失和 。、 是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。、数据区分是指: 。、考虑值集#$$$$%,其中位数是: 。(三)简答题、& 算法的核心是什么?、假定分析数据包含属性 。数据元组的  值以递增次序是:$$$$$$$$$$。该数据的平均值是多少?中值位数是多少?该数据的模是多少?评论数据的模态性(即双模态、三模态等)。)数据的中列数是什么?找出数据的第一个四分位数(')和第三个四分位数(')吗?并写出数据的五数概括。、知识发现过程的基本步骤是什么?、对遗漏数据有哪些处理方法((四)应用题、下表给出了一组年薪数据,其中 ) 表示大学毕业后工作的年数,而 * 是对应得收入。 )绘数据图。) 和 * 看上去具有线形联系吗?x−=∑i=0nxi ) 使 用 最 小 二 乘 法 , 求 由 大 学 毕 业 后 工 作 的 年 数 和 对 应 收 入 的 方 程 式 。β=∑i=0n( xi−x−)( yi− y−)∑i=0n( xi−x−)2 )预测大学毕业后工作  年后能达到的收入。 、 下 面 来 自  年 发 表 的 国 际 会 议 论 文 “ +,- ../-0.1.- 22-34的第一页,请据此回答相关问题。(请简要作答,作答时可以用中文或者英文,中英文混合也可以,可以使用论文中的原句,如果使用了请加上引号))论文作者来自哪两所大学? )论文主要讨论数据挖掘中的哪种方法? )论文引言(&0-)的中提到分类算法在哪些领域有应用(请根据论文列举)? )论文提出的所做的创新在何处是什么,请简述5 句话就可以?四、重点习题参考答案(答案仅供参考)(一)单项选择题1、【答题方法】参考第 2 章相关重点内容,数据预处理有哪些形式。答案:2、【答题方法】参考数据属性与度量相关内容作答。答案:3、【答题方法】参考数据预处理按箱平均值平滑方法相关重点内容作答。 答案:4、【答题方法】参考第 5 章的重点内容,理解频繁项集、闭频繁项集和极大频繁项集的关系。答案:5、【答题方法】参考第 6 章的重点内容,决策树由根节点、内部节点和树叶节点组成。答案:(二)填空题1、【答题方法】参考元数据概念相关内容作答。答案:技术、业务2、【答题方法】参考数据挖掘中营销和客户关系管理相关内容作答。答案:非自愿流失3、【答题方法】参考第 1 章的重点内容,了解离群点的含义。答案:离群点4、【答题方法】参考第 1 章的重点内容,用文字解释清楚数据区分的含义。
文档格式: docx,价格: 5下载文档
返回顶部