聚类分析实验心得体会2篇

时间：2022-10-02 10:50:23 来源：网友投稿

聚类分析实验心得体会2篇聚类分析实验心得体会　专业前沿讲座心得体会　近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成下面是小编为大家整理的聚类分析实验心得体会2篇,供大家参考。

聚类分析实验心得体会2篇

篇一：聚类分析实验心得体会

前沿讲座心得体会

　近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。

　机器学习和数据挖掘这些年一直是计算机应用方面研究的重点和热点，首先要了解什么是数据挖掘，简单地说，数据挖掘是从大量数据中提取或"挖掘"知识。我一直对这方面的知衷识颇感兴趣，这学期学寞院开设的学术前沿讲座狞的课程，很有幸听到了惧文益民教授对于自己在搅机器学习和数据挖掘方泵面研究的讲座，让我对智这些知识有了深入浅出湃的理解，受益匪浅。

　求

　12 月 5 号，文益民酉教授做了题为“大规模挚数据的分类”的讲座，乒在讲座的最开始，文教丫授提到了戈登·德莱顿嫩《学习的革命》一书，当皆在指导我们如何积累犯知识如何思考如何学习瑶如何去做研究，具有抛今砖引玉的指导意义。在腰这之后，又对了解机器各学习和数据挖掘首先要诱了解的知识做了简要的惯说明，比如对于问题的俐分类是分为线性问题和其非线性问题;比如聚类时的含义是将物理或抽象珠对象的集合分成由类似周的对象组成的多个类的号过程;比如对于这个世灵界上计算机的分类可以田只分成工人(make 质 r)和思考者(thi 粳 nker)

　两类。至此郧正式进入问题的讨论。

　牧

　对于这次讲座，文侯教授从四个方面进行了案讲授。第一，实际应用烛中的大规模数据分类问葫题。第二，大规模数据区给机器学习带来的挑战绳。第三，大规模数据分卢类算法的研究。第四，陕展望发展前景。文教授愈主要是在第三点中做了拥很多工作也取得了可喜豢的成绩。

　在机器学丁习的实际应用中，大规拈模数据分类问题一般会表应用在以下几个方面，践在高速高精度的工业图撕像检测方面，在专利分限类方面，在生物信息数泪据快速增长方面，在支稍持向量机参数选择方面啊。

　大规模数据给机鉴器学习带来的问题有：

　牲 1、算法一般不是收敛孺太慢就是难以收敛，训谤练时间过长。2、海量充数据无法一次装入内存虐。3、算法可靠性得不洒到保证。4、已经训练新好的学习器遇到心得训填练样本时需要重新训练罩。

　在最重要的部分萝，文教授提到了几个重序要的研究方法，包括算旬法，这里面包含有：1 硬、基于并行计算的算法怔，2、以并行计算方法蠢求解工作集方法中每个猎迭代步中二次规划的子侮问题，3、Meta- 猩 learning，最酗小最大模块化支持向量毯机以及快速模块化支持溃向量机，4、Clus 碟 ter-SVM，Cl 贝uster-base 胞 d-SVM，Casc 瓣 ade-SVM。文教台授在第三和第四点中都民有自己的工作和贡献，施在第三点中，他提出了庚分类面拼接算法，在第焰四点中，提出了分层并豺行支持向量机训练

　算法妄。对于分类面拼接算法协我进行了比较仔细的了致解，并下载阅读了文教耿授于 2017 年 3 月份曝在湖南大学学报上发表喧的论文“基于分类面的亚快速模块化支持向量机苹研究”，对于分类面拼壶接算法有了初步的研究琵，下面说说我对这个算胰法的理解。

　信息采跟集和信息处理技术的快线速发展导致了诸如公共陈健康数据、信用交易数哗据、国家经济普查数据课、网络文本数据和地理盔信息数据等大规模数据丈集的产生。由于训练时莹间很长和空间需求很大哄，现有的大多数机器学并习算法很难被直接用于峪大规模数据的机器学习表。

　这个算法是针对淫大多数现有的机器学习掣算法处理大规模问题时徽需要的训练时间很长和唾存储空间很大的难点而蛋提出的，英文名是 ps 汤 fnrSVMs，

　赣在训练阶段，psfm 护 2SVMs 采用一簇平哼行超平面对大规模问题曹实施软划分，然后针对到每个子问题并行训练支雏持向量机。在测试阶段少，测试样本坐落于哪个蝶子问题所在空间中，就吨由该子问题训练的支持碎向量机给出判别结果。

　迹在 4个大规模问题上的办实验表明:与采取硬划煮分的快速模块化支持向短量机(fm2SVMs 粟 )相比，软划分能够使滩 psfm2SVMs 得六到更加光滑的分类面，胶因而 ps2fm2SV 值 Ms 的泛化能力较高。

　谢在不增加训练时间的条琼件下，psfm2SV 氛 Ms 减少了由于训练集棉分割导致的分类器泛化休能力下降。

　支持向厕量机方法的本质是在训沁练集的一个高维像空间匡中寻找最大间隔分类超墓平面，这个分类超平面铺对应于训练集所在空间曝的一个光滑曲面。如果催采用训练集分割的方法豪，将这个光滑曲面分段廉求出，然后进行连接，扣就可以得到这个光滑曲靳面的近似曲面。

　该帅算法使用平行超平面簇设对训练集实施软划分，祥使得拼接后的分类面相贮比 fm2SVMs 得到戎的分类面更光滑，更接译近最优分类曲面。因而楔，psfm2SVMs 于的泛化能力比 fm2S 夹 VMs的泛化能力要高忘。在并行条件下，两者踩的训练时间和测试时间愤相同。在多核计算技术舌快速发展的今天，本文兑提出的算法，提供了一洒种可行的并行机器学习羞框架，对于研制高速高篇精度的机器学习算法具炬有一定的借鉴意义。未搭来计划研究随机向量 w 眼的方向对 psfm2S 袋 VMs 泛化能力的影响健，并将该算法用于高速蜕高精度工业图像检测。

　寺

　这就是我的心得体慌会，在讲座的最后，文芒教授还对机器学习和数宙据挖掘的未来进行了展忌望，诸如现在流行的云铆计算，还有动态数据流灭学习，例外的发现，学视习更复杂的函数，粒计斋算等等，都是今后发展挂的的热点。听完这个讲株座，我感到责任重大，伎即使是一个点，也还有汹很多方面值得拓展和探镭索，作为研究生，研究漓是我们主要的工作，想戚要取得满意的结果和优粤异的成绩，我们所要做斤的就是倍加努力，汲取溢现有的知识，在新的领儒域开拓新的研究道路，吭

　积极探索，永不止步。

　瘴

　在科学技术和信息哉技术的带动下，经济全炳球化的进程逐步加快，焦企业面临的竞争已演变则为价值链与价值链之间坞的竞争，为了提高供应稿链管理对我绩效，要做韭到拥有高效运行机制的院同时建立一个科学合理迎的供应链及其管理系统悲。因此，供应链优化势彝在必行。

　今天企业窿面临的最大挑战之一，敲就是要对从未有过的需官求变数做出快速的反应突。很多原因导致了产品泳和技术的生命周期缩短称，企业间的竞争压力也雍导致产品的频繁变化。

　筐为了应对这个挑战，企框业需要集中力量做到比虱以前更敏捷，以便在更芍短的时间内对产量和种遗类的变化做出反应。一竣条快速的供应链能够是皂企业更加快速的发展。

　械

　供应链的定义是：

　轮供应链是围绕核心企业驭，将供应商、制造商、晤分销商、零售商，直至詹最终客户连成一个整体齿的功能网链结构，通过航对信息流、物流，资金邯流的控制，从采购原材平料开始，制成中间产品骡以及最终产品，最后由板销售网络把产品送到消奋费者手中。供应链管理阅的基本概念使供应商、焰制造商、分销商、零售厕商和最终用户形成整体勘的功能网链;包括所有刘加盟企业(节点企业) 冶 ;从原材料供应开始，翌直至最终产品;通过供愉应商到用户的物料链、搅信息链和资金链，实现烫增值链，即使相关企业甘都有收益(多赢)。

　俺

　首先，供应链管理把疟产品在满足客户需求的矩过程中对

　成本有影响的怕各个成员单位都考虑在疑内了，包括从原材料供斌应商、制造商到仓库再筏经过配送中心到渠道商谦。不过，实际上在供应傅链分析中，有必要考虑吸供应商的供应商以及顾忘客的顾客，因为它们对俞供应链的业绩也是有影规响的。

　其次，供应翁链管理的目的在于追求茫整个供应链的整体效率命和整个系统费用的有效幌性，总是力图使系统总州成本降至最低。因此，绵供应链管理的重点不在推于简单地使某个供应链唉成员的运输成本达到最煮小或减少库存，而在于卉通过采用系统方法来协材调供应链成员以使整个夺供应链总成本最低，使折整个供应链系统处于最炸流畅的运作中。

　第仙三，供应链管理是围绕概把供应商、制造商、仓凯库、配送中心和渠道商漏有机结合成一体这个问兴题来展开的，因此它包耙括企业许多层次上的活轧动，包括战略层次、战绥术层次和作业层次等。

　憎

　尽管在实际的物流削管理中，只有通过供应雨链的有机整合，企业才汹能显著地降低成本和提怔高服务水平，但是在实圆践中供应链的整合是非钾常困难的，这是因为：

　虞首先，供应链中的不同由成员存在着不同的、相驶互冲突的目标。比如，灾供应商一般希望制造商诽进行稳定数量的大量采畏购，而交货期可以灵活钡变动;与供应商愿望相低反，尽管大多数制造商章愿意实施长期生产运转珐，但它们必须顾及顾客滁的需求及其变化并作出乔积极响应，这就要求制泻造商灵活地选择采购策怨略。

　因此，供应商的目憋标与制造商追求灵活性琐的目标之间就不可避免诈地存在矛盾。

　供应垦链是一个动态的系统，躬随时间而不断地变化。

　耽事实上，不仅顾客需求积和供应商能力随时间而扛变化，而且供应链成员杉之间的关系也会随时间窑而变化。比如，随着顾毡客购买力的提高，供应肇商和制造商均面临着更删大的压力来生产更多品螺种更具个性化的高质量守产品，进而最终生产定奠制化的产品。

　在听残讲座的时候老师讲得很疵认真，我也带着解决以壕下五个问题尝试着学习曼。包括物流管理与供应仪链管理的关系处理，物惦流企业和生产制造企业搪物流的视觉差异、物流主管理战略和战术问题的眨区分与协调、反映物流蹲领域的最新研究与实践规成果及理论性与实用性辛相合共五个问题。

　元学习的过程可以分为两祟个阶段，一从被动地听购老师授课，起初就觉得惊讲座理论性太强，而可降感性又不高，难以更好鳃的理解书中的理论，没鞋法更好地学习知识点，嘱二对课本上所提到的案宜例加上老师的讲解后，唁案例具体的指出存在的业相关问题，并提出的对啸应的解决措施，我对课连程理论的学习进入了半芝知半解的状态，有了一稠定的认识、了解、感悟豹，通过听讲座我对书本蔚的理论又有了进一步的谦认识，可感悟有了进一辛步的提升。对比自己本痊学期所学到的知识及能哪力，感觉自己再具体提侯出相关解决措施的时候岭，没办

　法更好的调研、槐分析，得出解决的方案姚，理论与实际的两者结盗合不够，没办法列出更辨为具体且行的方式以解铸决问题，提出方案的可修操作性都有待提升。

　箱

　自己学习方面的转变幢由只是老师讲解，转变押到了自己主动去了解、傅学习。通过自己上网下音载相关案例，学习更多种的东西。这就是我这学逸期有学习进步的地方。

　所

　不足之处：由于是谜第一次听这一类的讲座玄，自己没办法去了解到询哪些途径与方法能够更帐好的解决我们的问题。

　糕

　通过本学期的学习踞，我明显的感觉到了，蓄在看待问题，分析、解稻决具体问题方面的能力臭，明显不足，心态上有炼些急切，很想学习相关睛方面的具体解决问题的少知识，进一步提升自己仓。

　在进一步学习的嗜方面，我希望老师能再巢强化学生在这方面的意脏识，旨在合适的时候指噎出学生的不足和问题，焊让学生更好的意识到问阴题，有何途径去更好的账解决问题，灌输树立学咏生们树立这方面的意识绎或习惯。

　学生和老藻师的沟通不足，导致学法生上课没办法更好的与詹老师所讲解的内容，能陨有知识。思想或思维上哼的碰撞，擦出思维碰撞喧的火花。在讲座之前，津老师能先提前跟下节课萎有关的案例，课后让学袖生更好的在课前提出相禁关的问题，讲座上引导须学生更好的在课前思考亦提出相关的问题，讲座额上引导学生广泛地参与仲到思考与讨论中出现了症什么问题，

　为什么会出夷现问题，怎么去解决问缔题，为什么要这么去解叁决问题，如何具体的提沥出相关可行具体的方案沙去落实。这样子就能更旬好地让学生对理论与运幻用有更深地认识了。

　夯

　通过这次讲座我不仅伪学习到了专业知识，也扩使得我的视野更开阔了冬，学习能力也提高了。

　纹我觉得这是我踏上社会蛙之前收获的一笔财富。

　挚

　听了几位老师所讲潦的学科先沿讲座，我的惨感想颇多。尤其是对林美林老师的《智慧时代中琅的挑战与机遇》颇有感腐触。下面我谈谈自己通鸳过听讲，查资料，经过幢思考后对这一问题的理筛解。当今的信息新技术篙主要包括这么几类，即吏新息安全新技术：主要哥包括密码技术、入侵检刑测系统、信息隐藏技术冶、身份认证技术、数据英库安全技术、网络容灾戏和灾难恢复、网络安全步设计等。信息化新技术敷：信息化新技术主要涉赵及电子政务、电子商务液、城市信息化、企业信州息化、农业信...

篇二：聚类分析实验心得体会

集理论学习心得与基于 ROSETTA 的决策表属性约简实验陈涛(@chentao1999)http://weibo.com/chentao1999chentao1999@gmail.com摘

　要人类认知具有不确定性。

　粗糙集理论是处理这种不确定性的数学理论。

　粗糙集理论不断发展的同时，粗糙集的应用也越来越广泛。

　主要集中在两个方面：

　1.粗糙集的知识约简 2.粗糙集与其他方法的融合。ROSETTA 粗糙集数据分析工具集是挪威人 Aleksander Øhrn 以他在博士论文期间开发的粗糙集工具基础上发展而来的。

　具有数据导入导出、补全、离散化、知识约简、过滤、分类、规则生成以及获取等价类、上下近似集等功能。本文是《软计算方法及其应用》课程学习期间的心得和实验总结。

　共分四部分。

　第一部分回顾《软计算方法及其应用》课程粗糙集部分的学习心得；第二部分介绍 ROSETTA 工具集的功能、使用方法和应用实例。

　第三部分介绍基于 ROSETTA 的决策表属性约简实验。

　第四部分是实验分析与总结。关键词：

　不确定性、粗糙集、知识约简、 ROSETTA 工具集1 粗糙集理论学习心得：1.1概念的外延和内涵人类认知具有不确定性。

　人们表达一个不确定的概念时一般有两种方法：

　外延法和内涵法。

　符合某概念对象的全体构成此概念的外延，区别于其他概念的全体本质属性就是此概念的内涵。

　一个概念可以用枚举式的外延法表示，也可以用描述式的内涵法表示。粗糙集理论中的上下近似集就相当于人们日常表达的概念的外延和内涵。

　图 1 集合的上下近似如图 1 所示，折线相连构成的闭合区域表示不确定的概念 X，灰色外边界和黑色外边界表示人们使用能够确定表达的概念，也就是概念 X 的外延和内涵。

　人们无法直接表达概念 X，但可以通过 X 的外延和内涵间接表达。

　同时概念 X 的外延和内涵可以用来反映 X 的不确定性即概念的不精确性。

　图中灰色区域越大，表示概念 X 的精确性越低。由图 1 可以看出，概念 X 的表达只依赖于人们所了解的关于 X 的外延知识和内涵知识，不需要预先知道额外信息。

　粗糙集理论对事物的不精确性表达不需要任何假定的先验知识，只依赖于所给定的知识表达系统，通过上下近似算子直接计算得到，这一点与概率论和模糊集合理论完全不同，这也是粗糙集理论受到广泛关注的原因之一。1.2知识是一种分类能力粗糙集理论受到广泛关注的另一个原因是它对知识的观点。

　在粗糙集理论中，知识（人的智能）

　是一种对对象进行分类的能力。

　这里的“对象” 包括：

　实物，状态，抽象概念，过程和时间等。

　我们通常用等价关系或关系来表示分类和知识。粗糙集理论把知识定义为关于论域的划分模式，从而使知识具有了颗粒性，我们称其为信息粒度或知识粒度，简称粒度。1.3信息系统图 2 信息系统实例粗糙集理论研究的对象一般是如图 2 所示的表格（信息表或决策表）

　。

　用形式语言表示为一个四元有序组 S=<U,V,f,A>。

　其中 U 是对象（事例）

　的有限集合， U＝ {x1,x2,...,xn}； A

　是属性的有限集合， A＝ {A1,A2,...Am}； V 是属性的值域集， V＝ {V1,V2,...,Vm}，其中 Vi是属性 Ai 的值域。

　f 是信息函数（ information function）

　，ｆ：

　Ｕ ×Ａ→Ｖ， f(xi,Aj) Vj图 2 是一个具体的信息系统实例。

　结合图 2， U={x1,x2,x3,x4,x5,x6}，可以理解为x1,x2…x6， 6 个病人。

　A={头疼，肌肉疼，体温，流感}。

　V 是 A 的值域，对于属性头疼 V(头疼)={是，否}。

　信息函数 f 是粗线框框出的部分。1.4粗糙集的特征上文介绍了粗糙集理论中的概念：

　信息系统，上下近似集，划分等。

　下面介绍两种刻画粗糙集的方法：

　用近似程度的精确度来表示粗糙集的数字特征（表示集合边界域的大小，但没有说明边界域的结构）

　;用粗糙集分类表示粗糙集的拓扑特征（没有边界域大小的信息，提供了边界域的结构）

　。粗糙集的精度是下近似集元素个数与上近似集元素个数之商。

　集合（范畴或概念）

　的不精确性事由于边界域的存在而引起的，它的边界域越大，其精确性则越低。

　粗糙集中，精度反映对概念了解的程度，粗糙度反映对概念了解的不完全程度。近似分类的精度描述的是当前使用知识 R 对对象分类时，可能的决策中正确决策的百分比。

　近似分类质量表示的是应用知识 R 能确切地划入划分 PI（ U）

　的分类的对象的百分比。系统参数的重要度越大，集合 X 的 R 边界域越小，当它达到 1 时表明用知识 R 可精确描述集合 X，对划分而言也是一样的。

　当它为 0 表明用知识 R 无法判定论域 U 中任意元素是否属于概念 X，也就是说知识 R 是可以约简的。知识 Q 依赖于知识 P 的程度 k，记为 P→ kQ，表示由 Q 导出的分类 U/Q 的正域覆盖来知识库中论域 U 的 k×100%个元素。

　换句话说，论域中有 k×100%个元素可以通过知识 P 准确划入到分类 U/Q 的等价类中。集合的近似与划分的近似是两个不同的问题。

　划分中每一个范畴，如果我们能确定论域中哪些元素是它的正例，也必然能确定它的反例。

　与粗糙集合的补集意义不同。1.5粗糙集的基本性质粗糙集的基本性质，如成员的隶属关系、集合的包含关系、集合的相等关系都是相对的，都与我们掌握的知识 R 相关。

　因此，可以认为粗糙集的方法是经典集合论方法的主观认识。粗糙集理论中，一个对象是否隶属于某一集合（概念）

　，不是该元素的客观性质，而是取决于我们对它的了解程度，即知识 R 的分类能力。粗糙集中的粗糙包含关系，粗糙相等关系。

　主要是比较集合的拓扑结构而不是集合元素。在给定的知识库中，基于不同的知识，两个集合可能是精确相等，也可能是粗糙（近似）相等，或许是粗糙不相等。

　相等是相对的概念。1.6信息论的度量信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相依性程度。

　度量方法主要有：

　信息熵、条件熵和互信息。信息熵度量了信息源提供的平均信息量的大小。

　互信息量度了一个信息源从另一个信息源获取的信息量的大小。

　信息熵和互信息都随着知识粗糙性的增加而单调下降，通常反过来不成立。1.7知识约简信息系统和决策表中存在两种冗余：

　1.属性从整体角度而言存在冗余。

　2.属性从整体上讲是必要的，但对某对象在该属性上的取值可能存在冗余，即属性值的冗余。知识约简的一般步骤：

　1.删除表中重复对象。

　2.删除冗余的条件属性。

　3.删除每个对象的冗余属性值。

　4.求出其约简。知识的核是它最重要的部分，也就是最能体现知识特征的部分。

　1.核可以作为所有约简的计算基础。

　2.核可以解释为知识特征的最主要部分，在知识约简时它不能被删除，否则将∈。

　减弱知识的分类能力。参数重要度强的属性对知识的分类能力越强，但将参数重要度强的知识结合在一起，分类能力不一定强。如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴（ IND（ Q）

　等价类）

　都是必不可少的，那么知识 P 就是 Q 独立的。

　知识 P 的 Q 核是知识 P最基本的特征部分。只有一个 Q 约简的知识 P 是确定的，因为当我们依照只是 P 的基本范畴将论域中的对象划分到知识 Q 的基本范畴中时只有一种 P 的知识基（ P 商集）

　可用。

　P 有多个 Q 约简时是不确定的，因为有多种 P 的知识基可利用。P 的 Q 核为空集时，知识 P 的不确定性达到最强。不相容决策表，粗糙集理论的处理方法是对每个决策概念计算其上下近似，从下近似导出的规则肯定成立，从上近似导出的规则可能成立，前者直接用于逻辑推理，后者有实例支持。属性约简算法分两种：

　1.盲目删除属性约简算法 2.启发式算法：

　通过定义属性的一个重要度函数或差别函数来获取信息系统的属性约简。常见的属性约简算法有：

　1.基于 Pawlak 属性重要度的属性约简算法。

　2.基于 Skowron 差别矩阵的 IS 属性约简算法。

　3.基于信息熵的 IS 属性约简算法粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。1.8粗糙集与自然语言的不确定性自然语言在表达事物的不确定性时往往用数量、频率、概率和程度等方式来描述事件从模糊到精确的变化，以便表示对某一命题的信任程度。程度型(A)：

　considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just;程度型 (B) ：

　exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about;数量型(C)：

　all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any;频率型(D) ：

　always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever;概率型 (E)

　：improbable, doubtful, almost impossiblecertain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示事物的不确定性和进行不确定性推理时，虽然信息本身有随机性，但人的表示和推理不是随机的，而是遵循一定的认识规律和行为法则。2 ROSETTA 工具集介绍：ROSETTA 粗糙集数据分析工具集可能是目前最完整、最灵活和先进的粗糙集软件。

　它是由波兰华沙大学和挪威科技大学用 C++联合开发的一个基于粗糙集理论框架的数据分析工具包。

　它的雏形是挪威人 Aleksander Øhrn 在完成博士论文期间开发的粗糙集工具。ROSETTA 实现了数据挖掘和知识发现的整个过程，包括多种数据导入导出、数据补全、数据离散化、知识约简、过滤、分类、规则生成验证与分析以及获取等价类、上下近似集等功能。

　它的 C++库源代码可以在网站：

　http://www.lcb.uu.se/tools/rosetta/上免费下载。图 3 ROSETTA 图形界面展示 1如图 3 所示，结点 A 表示从数据库导入的数据，结点 A1 表示对数据进行了补全操作。A2 和 A3 结点表示将数据分为训练数据和测试数据两类， A4， A5， A6， A7 是数据预处理阶段，分别对训练数据和测试数据进行部分离散化和全部离散化操作。

　RED 结点表示对数据进行了约简，双击该结点可以看到属性约简的结果。

　RUL 结点表示规则生成。图标的结点表示生成的结果数据文件。

　图 4 ROSETTA 图形界面展示 2图 4 展示的是 ROSETTA 的主要算法，包括数据补全、数据离散化、属性约简、过滤、分类、规则生成、上下近似集计算、等价类获取等。

　其中有 RSES 标注的是与粗糙集理论相关的算法。3 实验操作3.1导入数据

　图 5 导入数据 1

　图 6 选择数据格式图 7 导入的数据如图 7 所示，快速双击结点“No name”即可看到导入的数据。

　慢速双击结点“No name”将其重命名为“流感诊断数据” 。3.2进行属性约简图 8 选择属性约简算法

　图 9 属性约简算法参数设定图 8 所示的属性约简算法中不同的算法约简的结果可能不一致。

　图 10 所示的属性约简结果：

　属性由原来的{头疼，肌肉疼，体温}，约简为{体温，头疼}。3.3规则生成图 10 属性约简结果图 11 规则生成图 12 生成的规则其中 LHS 是 Left Hand Side 的缩写，意指规则左边。

　RHS 是 Right Hand Side 的缩写，意指则右边。

　3.4等价类获取图 13 等价类获取 1

　图 14 等价类获取 2：

　选择属性

　图 15 选择属性{头疼，体温}得到的等价类

　图 16 等价类获取 3：

　选择属性

　图 17 选择属性{头疼，肌肉疼}得到的结果

　3.5上下近似集获取图 18 获取上下近似集 1

　图 19 获取上下近似集 2：

　选择决策值和属性图 20 获取上下近似集 3：

　结果图 20 中 Universe 表示论域 U， Upper 表示上近似集， Lower 表示下近似集， Boundary表示边界域， Outside 表示负域。4 总结本实验选取的数据是《软计算方法及其应用》课程引用的例子，实验结果与手工计算结果相符。

　ROSETTA 工具集本身自带了更大规模的数据源示例。

　也有很多学者将 ROSETTA 工

　具集应用于实践，从他们发表的论文可以看出应用是成功的。通过本实验，深化了我对粗糙集基本概念、算法的理解，增强了学习的兴趣。

　在粗糙集的学习过程中发现一些算法本身并不复杂，但手工计算比较繁琐，很适合计算机来完成。

　下面列出计算正域和相对核的 C++算法。计算正域的 C++代码：Set DecisionTable::POS(){ bool flag;Set pos;vector<Element>::iterator it1;vector<Element>::iterator it2;for(it1 = DT.begin(); it1<DT.end(); it1++){flag = true;for(it2 = DT.begin(); it2<DT.end(); it2++){if((*it1).ConditionEqual(*it2) && !((*it1).DecisionEqual(*it2))){flag = false;break;}}if(flag){pos.Add((*it1).GetU());}}return pos;}计算知识相对核的 C++代码：double DecisionTable::SigOfAttribute(const char &c){ double sig = 0.0;double x, y;DecisionTable dt;dt = *this;dt.RemoveConditionAttribute(c);//计算 D 对 C 的依赖度Set pos1;pos1 = this->POS();x = (double) pos1.Card() / this->NumberOfElement();//计算 D 对 C-{c}的依赖度Set pos2;pos2 = dt.POS();y = (double) pos2.Card() / dt.NumberOfElement();//计算属性 c 的重要度sig = x - y;return sig;}vector<char>...

推荐访问:聚类分析实验心得体会心得体会实验分析