欢迎来到专业的新思文库网平台! 工作计划 工作总结 心得体会 事迹材料 述职报告 疫情防控 思想汇报 党课下载
当前位置:首页 > 心得体会 > 正文

聚类分析实验心得体会2篇

时间:2022-10-02 10:50:23 来源:网友投稿

聚类分析实验心得体会2篇聚类分析实验心得体会 专业前沿讲座心得体会 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成下面是小编为大家整理的聚类分析实验心得体会2篇,供大家参考。

聚类分析实验心得体会2篇

篇一:聚类分析实验心得体会

前沿讲座心得体会

  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

  机器学习和数据挖掘这些年一直是计算机应用方面研究的重点和热点,首先要了解什么是数据挖掘,简单地说,数据挖掘是从大量数据中提取或"挖掘"知识。我一直对这方面的知 衷 识颇感兴趣,这学期学 寞 院开设的学术前沿讲座 狞 的课程,很有幸听到了 惧 文益民教授对于自己在 搅 机器学习和数据挖掘方 泵 面研究的讲座,让我对 智 这些知识有了深入浅出 湃 的理解,受益匪浅。

 求

 12 月 5 号,文益民 酉 教授做了题为“大规模 挚 数据的分类”的讲座, 乒 在讲座的最开始,文教 丫 授提到了戈登·德莱顿 嫩《学习的革命》一书, 当 皆在指导我们如何积累 犯 知识如何思考如何学习 瑶 如何去做研究,具有抛 今 砖引玉的指导意义。在 腰这之后,又对了解机器 各 学习和数据挖掘首先要 诱 了解的知识做了简要的 惯 说明,比如对于问题的 俐 分类是分为线性问题和 其非线性问题;比如聚类 时 的含义是将物理或抽象 珠 对象的集合分成由类似 周 的对象组成的多个类的 号 过程;比如对于这个世 灵 界上计算机的分类可以 田 只分成工人(make 质 r)和思考者(thi 粳 nker)

 两类。至此 郧 正式进入问题的讨论。

 牧

 对于这次讲座,文 侯 教授从四个方面进行了 案 讲授。第一,实际应用 烛 中的大规模数据分类问 葫 题。第二,大规模数据 区 给机器学习带来的挑战 绳 。第三,大规模数据分 卢 类算法的研究。第四, 陕 展望发展前景。文教授 愈 主要是在第三点中做了 拥 很多工作也取得了可喜 豢 的成绩。

  在机器学 丁 习的实际应用中,大规 拈 模数据分类问题一般会 表 应用在以下几个方面, 践 在高速高精度的工业图 撕 像检测方面,在专利分 限 类方面,在生物信息数 泪 据快速增长方面,在支 稍 持向量机参数选择方面 啊 。

  大规模数据给机 鉴 器学习带来的问题有:

 牲 1、算法一般不是收敛 孺 太慢就是难以收敛,训 谤 练时间过长。2、海量 充 数据无法一次装入内存 虐 。3、算法可靠性得不 洒 到保证。4、已经训练 新 好的学习器遇到心得训 填 练样本时需要重新训练 罩 。

  在最重要的部分 萝 ,文教授提到了几个重 序 要的研究方法,包括算 旬 法,这里面包含有:1 硬 、基于并行计算的算法 怔 ,2、以并行计算方法 蠢 求解工作集方法中每个 猎 迭代步中二次规划的子 侮 问题,3、Meta- 猩 learning,最 酗 小最大模块化支持向量 毯机以及快速模块化支持 溃 向量机,4、Clus 碟 ter-SVM,Cl 贝uster-base 胞 d-SVM,Casc 瓣 ade-SVM。文教 台 授在第三和第四点中都 民 有自己的工作和贡献, 施 在第三点中,他提出了 庚 分类面拼接算法,在第 焰 四点中,提出了分层并 豺 行支持向量机训练

 算法 妄 。对于分类面拼接算法 协 我进行了比较仔细的了 致 解,并下载阅读了文教 耿 授于 2017 年 3 月份 曝 在湖南大学学报上发表 喧的论文“基于分类面的 亚 快速模块化支持向量机 苹 研究”,对于分类面拼 壶 接算法有了初步的研究 琵 ,下面说说我对这个算 胰 法的理解。

  信息采 跟 集和信息处理技术的快 线 速发展导致了诸如公共 陈健康数据、信用交易数 哗 据、国家经济普查数据 课 、网络文本数据和地理 盔 信息数据等大规模数据 丈 集的产生。由于训练时 莹间很长和空间需求很大 哄 ,现有的大多数机器学 并 习算法很难被直接用于 峪 大规模数据的机器学习 表 。

  这个算法是针对 淫 大多数现有的机器学习 掣 算法处理大规模问题时 徽 需要的训练时间很长和 唾 存储空间很大的难点而 蛋 提出的,英文名是 ps 汤 fnrSVMs,

  赣 在训练阶段,psfm 护 2SVMs 采用一簇平 哼 行超平面对大规模问题 曹 实施软划分,然后针对 到 每个子问题并行训练支 雏 持向量机。在测试阶段 少 ,测试样本坐落于哪个 蝶 子问题所在空间中,就 吨 由该子问题训练的支持 碎 向量机给出判别结果。

 迹 在 4个大规模问题上的 办 实验表明:与采取硬划 煮 分的快速模块化支持向 短 量机(fm2SVMs 粟 )相比,软划分能够使 滩 psfm2SVMs 得 六 到更加光滑的分类面, 胶 因而 ps2fm2SV 值 Ms 的泛化能力较高。

 谢 在不增加训练时间的条 琼 件下,psfm2SV 氛 Ms 减少了由于训练集 棉 分割导致的分类器泛化 休 能力下降。

 支持向 厕 量机方法的本质是在训 沁 练集的一个高维像空间 匡中寻找最大间隔分类超 墓 平面,这个分类超平面 铺 对应于训练集所在空间 曝 的一个光滑曲面。如果 催 采用训练集分割的方法 豪 ,将这个光滑曲面分段 廉 求出,然后进行连接, 扣 就可以得到这个光滑曲 靳 面的近似曲面。

  该 帅 算法使用平行超平面簇 设 对训练集实施软划分, 祥 使得拼接后的分类面相 贮 比 fm2SVMs 得到 戎 的分类面更光滑,更接 译近最优分类曲面。因而 楔 ,psfm2SVMs 于 的泛化能力比 fm2S 夹 VMs的泛化能力要高 忘 。在并行条件下,两者 踩 的训练时间和测试时间 愤 相同。在多核计算技术 舌 快速发展的今天,本文 兑 提出的算法,提供了一 洒 种可行的并行机器学习 羞 框架,对于研制高速高 篇 精度的机器学习算法具 炬 有一定的借鉴意义。未 搭 来计划研究随机向量 w 眼 的方向对 psfm2S 袋 VMs 泛化能力的影响 健 ,并将该算法用于高速 蜕 高精度工业图像检测。

 寺

 这就是我的心得体 慌 会,在讲座的最后,文 芒 教授还对机器学习和数 宙 据挖掘的未来进行了展 忌 望,诸如现在流行的云 铆计算,还有动态数据流 灭 学习,例外的发现,学 视 习更复杂的函数,粒计 斋 算等等,都是今后发展 挂 的的热点。听完这个讲 株座,我感到责任重大, 伎 即使是一个点,也还有 汹 很多方面值得拓展和探 镭 索,作为研究生,研究 漓 是我们主要的工作,想 戚要取得满意的结果和优 粤 异的成绩,我们所要做 斤 的就是倍加努力,汲取 溢 现有的知识,在新的领 儒 域开拓新的研究道路, 吭

 积极探索,永不止步。

 瘴

 在科学技术和信息 哉 技术的带动下,经济全 炳 球化的进程逐步加快, 焦 企业面临的竞争已演变 则 为价值链与价值链之间 坞的竞争,为了提高供应 稿 链管理对我绩效,要做 韭 到拥有高效运行机制的 院 同时建立一个科学合理 迎 的供应链及其管理系统 悲 。因此,供应链优化势 彝 在必行。

  今天企业 窿 面临的最大挑战之一, 敲 就是要对从未有过的需 官 求变数做出快速的反应 突 。很多原因导致了产品 泳 和技术的生命周期缩短 称 ,企业间的竞争压力也 雍 导致产品的频繁变化。

 筐 为了应对这个挑战,企 框 业需要集中力量做到比 虱 以前更敏捷,以便在更 芍 短的时间内对产量和种 遗 类的变化做出反应。一 竣 条快速的供应链能够是 皂 企业更加快速的发展。

 械

 供应链的定义是:

 轮 供应链是围绕核心企业 驭 ,将供应商、制造商、 晤 分销商、零售商,直至 詹 最终客户连成一个整体 齿 的功能网链结构,通过 航 对信息流、物流,资金 邯 流的控制,从采购原材 平 料开始,制成中间产品 骡 以及最终产品,最后由 板 销售网络把产品送到消 奋 费者手中。供应链管理 阅 的基本概念使供应商、 焰 制造商、分销商、零售 厕 商和最终用户形成整体 勘 的功能网链;包括所有 刘 加盟企业(节点企业) 冶 ;从原材料供应开始, 翌 直至最终产品;通过供 愉 应商到用户的物料链、 搅 信息链和资金链,实现 烫 增值链,即使相关企业 甘 都有收益(多赢)。

 俺

 首先,供应链管理把 疟 产品在满足客户需求的 矩 过程中对

 成本有影响的 怕 各个成员单位都考虑在 疑 内了,包括从原材料供 斌 应商、制造商到仓库再 筏 经过配送中心到渠道商 谦 。不过,实际上在供应 傅 链分析中,有必要考虑 吸 供应商的供应商以及顾 忘 客的顾客,因为它们对 俞 供应链的业绩也是有影 规 响的。

  其次,供应 翁 链管理的目的在于追求 茫 整个供应链的整体效率 命 和整个系统费用的有效 幌 性,总是力图使系统总 州 成本降至最低。因此, 绵 供应链管理的重点不在 推 于简单地使某个供应链 唉 成员的运输成本达到最 煮 小或减少库存,而在于 卉 通过采用系统方法来协 材 调供应链成员以使整个 夺 供应链总成本最低,使 折 整个供应链系统处于最 炸 流畅的运作中。

  第 仙 三,供应链管理是围绕 概 把供应商、制造商、仓 凯 库、配送中心和渠道商 漏 有机结合成一体这个问 兴 题来展开的,因此它包 耙 括企业许多层次上的活 轧 动,包括战略层 次、战 绥 术层次和作业层次等。

 憎

 尽管在实际的物流 削 管理中,只有通过供应 雨 链的有机整合,企业才 汹 能显著地降低成本和提 怔 高服务水平,但是在实 圆践中供应链的整合是非 钾 常困难的,这是因为:

 虞 首先,供应链中的不同 由 成员存在着不同的、相 驶 互冲突的目标。比如, 灾供应商一般希望制造商 诽 进行稳定数量的大量采 畏 购,而交货期可以灵活 钡 变动;与供应商愿望相 低 反,尽管大多数制造商 章 愿意实施长期生产运转 珐 ,但它们必须顾及顾客 滁 的需求及其变化并作出 乔 积极响应,这就要求制 泻 造商灵活地选择采购策 怨 略。

 因此,供应商的目 憋 标与制造商追求灵活性 琐 的目标之间就不可避免 诈 地存在矛盾。

  供应 垦 链是一个动态的系统, 躬 随时间而不断地变化。

 耽 事实上,不仅顾客需求 积 和供应商能力随时间而 扛 变化,而且供应链成员 杉 之间的关系也会随时间 窑 而变化。比如,随着顾 毡 客购买力的提高,供应 肇 商和制造商均面临着更 删 大的压力来生产更多品 螺 种更具个性化的高质量 守 产品,进而最终生产定 奠 制化的产品。

  在听 残 讲座的时候老师讲得很 疵 认真,我也带着解决以 壕 下五个问题尝试着学习 曼 。包括物流管理与供应 仪 链管理的关系处理,物 惦 流企业和生产制造企业 搪 物流的视觉差异、物流 主 管理战略和战术问题的 眨 区分与协调、反映物流 蹲 领域的最新研究与实践 规 成果及理论性与实用性 辛 相合共五个问题。

  元 学习的过程可以分为两 祟 个阶段,一从被动地听 购 老师授课,起初就觉得 惊 讲座理论性太强,而可 降 感性又不高,难以更好 鳃 的理解书中的理论,没 鞋 法更好地学习知识点, 嘱 二对课本上所提到的案 宜 例加上老师的讲解后, 唁 案例具体的指出存在的 业 相关问题,并提出的对 啸 应的解决措施,我对课 连 程理论的学习进入了半 芝 知半解的状态,有了一 稠 定的认识、了解、感悟 豹 ,通过听讲座我对书本 蔚 的理论又有了进一步的 谦 认识,可感悟有了进一 辛 步的提升。对比自己本 痊 学期所学到的知识及能 哪 力,感觉自己再具体提 侯 出相关解决措施的时候 岭 ,没办

 法更好的调研、 槐 分析,得出解决的方案 姚 ,理论与实际的两者结 盗 合不够,没办法列出更 辨 为具体且行的方式以解 铸 决问题,提出方案的可 修 操作性都有待提升。

 箱

 自己学习方面的转变 幢 由只是老师讲解,转变 押 到了自己主动去了解、 傅 学习。通过自己上网下 音 载相关案例,学习更多 种 的东西。这就是我这学 逸 期有学习进步的地方。

 所

 不足之处:由于是 谜 第一次听这一类的讲座 玄 ,自己没办法去了解到 询 哪些途径与方法能够更 帐 好的解决我们的问题。

 糕

 通过本学期的学习 踞 ,我明显的感觉到了, 蓄 在看待问题,分析、解 稻 决具体问题方面的能力 臭 ,明显不足,心态上有 炼 些急切,很想学习相关 睛 方面的具体解决问题的 少 知识,进一步提升自己 仓 。

  在进一步学习的 嗜 方面,我希望老师能再 巢 强化学生在这方面的意 脏 识,旨在合适的时候指 噎 出学生的不足和问题, 焊 让学生更好的意识到问 阴 题,有何途径去更好的 账 解决问题,灌输树立学 咏 生们树立这方面的意识 绎 或习惯。

  学生和老 藻 师的沟通不足,导致学 法 生上课没办法更好的与 詹 老师所讲解的内容,能 陨 有知识。思想或思维上 哼 的碰撞,擦出思维碰撞 喧 的火花。在讲座之前, 津 老师能先提前跟下节课 萎 有关的案例,课后让学 袖 生更好的在课前提出相 禁 关的问题,讲座上引导 须 学生更好的在课前思考 亦 提出相关的问题,讲座 额上引导学生广泛地参与 仲 到思考与讨论中出现了 症 什么问题,

 为什么会出 夷 现问题,怎么去解决问 缔 题,为什么要这么去解 叁决问题,如何具体的提 沥 出相关可行具体的方案 沙 去落实。这样子就能更 旬 好地让学生对理论与运 幻 用有更深地认识了。

 夯

 通过这次讲座我不仅 伪 学习到了专业知识,也 扩 使得我的视野更开阔了 冬 ,学习能力也提高了。

 纹 我觉得这是我踏上社会 蛙 之前收获的一笔财富。

 挚

 听了几位老师所讲 潦 的学科先沿讲座,我的 惨 感想颇多。尤其是对林 美 林老师的《智慧时代中 琅 的挑战与机遇》颇有感 腐触。下面我谈谈自己通 鸳 过听讲,查资料,经过 幢 思考后对这一问题的理 筛 解。当今的信息新技术 篙 主要包括这么几类,即 吏新息安全新技术:主要 哥 包括密码技术、入侵检 刑 测系统、信息隐藏技术 冶 、身份认证技术、数据 英 库安全技术、网络容灾 戏和灾难恢复、网络安全 步 设计等。信息化新技术 敷 :信息化新技术主要涉 赵 及电子政务、电子商务 液 、城市信息化、企业信 州息化、农业信...

篇二:聚类分析实验心得体会

集理论学习 心得与基于 ROSETTA 的决策表属性约简实验陈涛(@chentao1999)http://weibo.com/chentao1999chentao1999@gmail.com摘

 要人类认知具有不确定性。

 粗糙集理论是处理这种不确定性的数学理论。

 粗糙集理论不断发展的同时, 粗糙集的应用也越来越广泛。

 主要集中在两个方面:

 1.粗糙集的知识约简 2.粗糙集与其他方法的融合。ROSETTA 粗糙集数据分析工具集是挪威人 Aleksander Øhrn 以他在博士论文期间开发的粗糙集工具基础上发展而来的。

 具有数据导入导出、 补全、 离散化、 知识约简、 过滤、 分类、 规则生成以及获取等价类、 上下近似集等功能。本文是 《软计算方法及其应用》课程学习期间的心得和实验总结

 共分四部分。

 第一部分回顾《软计算方法及其应用》 课程粗糙集部分的学习心得; 第二部分介绍 ROSETTA 工具集的功能、 使用方法和应用实例。

 第三部分介绍基于 ROSETTA 的决策表属性约简实验。

 第四部分是实验分析与总结。关键词:

 不确定性、 粗糙集、 知识约简、 ROSETTA 工具集1 粗糙集理论学习 心 得:1.1概念的外延和内涵人类认知具有不确定性。

 人们表达一个不确定的概念时一般有两种方法:

 外延法和内涵法。

 符合某概念对象的全体构成此概念的外延, 区别于其他概念的全体本质属性就是此概念的内涵。

 一个概念可以用枚举式的外延法表示, 也可以用描述式的内涵法表示。粗糙集理论中的上下近似集就相当于人们日常表达的概念的外延和内涵。

 图 1 集合的上下近似如图 1 所示, 折线相连构成的闭合区域表示不确定的概念 X, 灰色外边界和黑色外边界表示人们使用能够确定表达的概念, 也就是概念 X 的外延和内涵。

 人们无法直接表达概念 X, 但可以通过 X 的外延和内涵间接表达。

 同时概念 X 的外延和内涵可以用来反映 X 的不确定性即概念的不精确性。

 图中灰色区域越大, 表示概念 X 的精确性越低。由图 1 可以看出, 概念 X 的表达只依赖于人们所了解的关于 X 的外延知识和内涵知识,不需要预先知道额外信息。

 粗糙集理论对事物的不精确性表达不需要任何假定的先验知识 ,只依赖于所给定的知识表达系统, 通过上下近似算子直接计算得到, 这一点与概率论和模糊集合理论完全不同, 这也是粗糙集理论受到广泛关注的原因之一。1.2知识是一种分类能力粗糙集理论受到广泛关注的另一个原因是它对知识的观点。

 在粗糙集理论中, 知识( 人的智能)

 是一种对对象进行分类的能力。

 这里的“对象” 包括:

 实物, 状态, 抽象概念, 过程和时间等。

 我们通常用等价关系或关系来表示分类和知识。粗糙集理论把知识定义为关于论域的划分模式, 从而使知识具有了颗粒性, 我们称其为信息粒度或知识粒度, 简称粒度。1.3信息系统图 2 信息系统实例粗糙集理论研究的对象一般是如图 2 所示的表格( 信息表或决策表)

 。

 用形式语言表示为一个四元有序组 S=<U,V,f,A>。

 其中 U 是对象( 事例)

 的有限集合, U= {x1,x2,...,xn}; A

 是属性的有限集合, A= {A1,A2,...Am}; V 是属性的值域集, V= {V1,V2,...,Vm}, 其中 Vi是属性 Ai 的值域。

 f 是信息函数( information function)

 , f :

 U ×A→V, f(xi,Aj) Vj图 2 是一个具体的信息 系 统实例。

 结合图 2, U={x1,x2,x3,x4,x5,x6}, 可以 理解为x1,x2…x6, 6 个病人。

 A={头疼, 肌肉疼, 体温, 流感}。

 V 是 A 的值域, 对于属性头疼 V(头疼)={是, 否}。

 信息函数 f 是粗线框框出的部分。1.4粗糙集的特征上文介绍了粗糙集理论中的概念:

 信息系统, 上下近似集, 划分等。

 下面介绍两种刻画粗糙集的方法:

 用近似程度的精确度来表示粗糙集的数字特征( 表示集合边界域的大小,但没有说明边界域的结构)

 ;用粗糙集分类表示粗糙集的拓扑特征( 没有边界域大小的信息,提供了边界域的结构)

 。粗糙集的精度是下近似集元素个数与上近似集元素个数之商。

 集合( 范畴或概念)

 的不精确性事由于边界域的存在而引起的, 它的边界域越大, 其精确性则越低。

 粗糙集中, 精度反映对概念了解的程度, 粗糙度反映对概念了解的不完全程度。近似分类的精度描述的是当前使用知识 R 对对象分类时, 可能的决策中正确决策的百分比。

 近似分类质量表示的是应用知识 R 能确切地划入划分 PI( U)

 的分类的对象的百分比。系统参数的重要度越大, 集合 X 的 R 边界域越小, 当它达到 1 时表明用知识 R 可精确描述集合 X, 对划分而言也是一样的。

 当它为 0 表明用知识 R 无法判定论域 U 中任意元素是否属于概念 X, 也就是说知识 R 是可以约简的。知识 Q 依赖于知识 P 的程度 k, 记为 P→ kQ, 表示由 Q 导出的分类 U/Q 的正域覆盖来知识库中论域 U 的 k×100%个元素。

 换句话说, 论域中有 k×100%个元素可以通过知识 P 准确划入到分类 U/Q 的等价类中。集合的近似与划分的近似是两个不同的问题。

 划分中每一个范畴, 如果我们能确定论域中哪些元素是它的正例, 也必然能确定它的反例。

 与粗糙集合的补集意义不同。1.5粗糙集的基本性质粗糙集的基本性质, 如成员的隶属关系、 集合的包含关系、 集合的相等关系都是相对的,都与我们掌握的知识 R 相关。

 因此, 可以认为粗糙集的方法是经典集合论方法的主观认识。粗糙集理论中, 一个对象是否隶属于某一集合( 概念)

 , 不是该元素的客观性质, 而是取决于我们对它的了解程度, 即知识 R 的分类能力。粗糙集中的粗糙包含关系, 粗糙相等关系。

 主要是比较集合的拓扑结构而不是集合元素。在给定的知识库中, 基于不同的知识, 两个集合可能是精确相等, 也可能是粗糙( 近似)相等, 或许是粗糙不相等。

 相等是相对的概念。1.6信息论的度量信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相依性程度。

 度量方法主要有:

 信息熵、 条件熵和互信息。信息熵度量了信息源提供的平均信息量的大小。

 互信息量度了一个信息源从另一个信息源获取的信息量的大小。

 信息熵和互信息都随着知识粗糙性的增加而单调下降, 通常反过来不成立。1.7知识约简信息系统和决策表中存在两种冗余:

 1.属性从整体角度而言存在冗余。

 2.属性从整体上讲是必要的, 但对某对象在该属性上的取值可能存在冗余, 即属性值的冗余。知识约简的一般步骤:

 1.删除表中重复对象。

 2.删除冗余的条件属性。

 3.删除每个对象的冗余属性值。

 4.求出其约简。知识的核是它最重要的部分, 也就是最能体现知识特征的部分。

 1.核可以作为所有约简的计算基础。

 2.核可以解释为知识特征的最主要部分, 在知识约简时它不能被删除, 否则将∈。

 减弱知识的分类能力。参数重要度强的属性对知识的分类能力越强, 但将参数重要度强的知识结合在一起,分类能力不一定强。如 果 所 有 P 中 的 知 识 对 于 论 域 U 中 的 对 象 正 确 地 划 分 到 知 识 Q 的 基 本 范 畴( IND( Q)

 等价类)

 都是必不可少的, 那么知识 P 就是 Q 独立的。

 知识 P 的 Q 核是知识 P最基本的特征部分。只有一个 Q 约简的知识 P 是确定的, 因为当我们依照只是 P 的基本范畴将论域中的对象划分到知识 Q 的基本范畴中时只有一种 P 的知识基( P 商集)

 可用。

 P 有多个 Q 约简时是不确定的, 因为有多种 P 的知识基可利用。P 的 Q 核为空集时, 知识 P 的不确定性达到最强。不相容决策表, 粗糙集理论的处理方法是对每个决策概念计算其上下近似, 从下近似导出的规则肯定成立, 从上近似导出的规则可能成立, 前者直接用于逻辑推理, 后者有实例支持。属性约简算法分两种:

 1.盲目删除属性约简算法 2.启发式算法:

 通过定义属性的一个重要度函数或差别函数来获取信息系统的属性约简。常见的属性约简算法有:

 1.基于 Pawlak 属性重要度的属性约简算法。

 2.基于 Skowron 差别矩阵的 IS 属性约简算法。

 3.基于信息熵的 IS 属性约简算法粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。1.8粗糙集与自然语言的不确定性自然语言在表达事物的不确定性时往往用数量、 频率、 概率和程度等方式来描述事件从模糊到精确的变化, 以便表示对某一命题的信任程度。程度型(A):

 considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just;程 度 型 (B) :

 exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about;数量型(C):

 all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any;频率型(D) :

 always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever;概 率 型 (E)

 :improbable, doubtful, almost impossiblecertain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示事物的不确定性和进行不确定性推理时, 虽然信息本身有随机性, 但人的表示和推理不是随机的, 而是遵循一定的认识规律和行为法则。2 ROSETTA 工具集介绍:ROSETTA 粗糙集数据分析工具集可能是目前最完整、 最灵活和先进的粗糙集软件。

 它是由波兰华沙大学和挪威科技大学用 C++联合开发的一个基于粗糙集理论框架的数据分析工具包。

 它的雏形是挪威人 Aleksander Øhrn 在完成博士论文期间开发的粗糙集工具。ROSETTA 实现了数据挖掘和知识发现的整个过程, 包括多种数据导入导出、 数据补全、数据离散化、 知识约简、 过滤、 分类、 规则生成验证与分析以及获取等价类、 上下近似集等功能。

 它的 C++库源代码可以在网站:

 http://www.lcb.uu.se/tools/rosetta/上免费下载。图 3 ROSETTA 图形界面展示 1如图 3 所示, 结点 A 表示从数据库导入的数据, 结点 A1 表示对数据进行了补全操作 。A2 和 A3 结点表示将数据分为训练数据和测试数据两类, A4, A5, A6, A7 是数据预处理阶段, 分别对训练数据和测试数据进行部分离散化和全部离散化操作。

 RED 结点表示对数据进行了约简, 双击该结点可以看到属性约简的结果。

 RUL 结点表示规则生成。图标的结点表示生成的结果数据文件。

 图 4 ROSETTA 图形界面展示 2图 4 展示的是 ROSETTA 的主要算法, 包括数据补全、 数据离散化、 属性约简、 过滤、 分类、 规则生成、 上下近似集计算、 等价类获取等。

 其中有 RSES 标注的是与粗糙集理论相关的算法。3 实验操作3.1导入数据

 图 5 导入数据 1

  图 6 选择数据格式图 7 导入的数据如图 7 所示, 快速双击结点“No name”即可看到导入的数据。

 慢速双击结点“No name”将其重命名为“流感诊断数据” 。3.2进行属性约简图 8 选择属性约简算法

 图 9 属性约简算法参数设定图 8 所示的属性约简算法中不同的算法约简的结果可能不一致。

 图 10 所示的属性约简结果:

 属性由原来的{头疼, 肌肉疼, 体温}, 约简为{体温, 头疼}。3.3规则生成图 10 属性约简结果图 11 规则生成图 12 生成的规则其中 LHS 是 Left Hand Side 的缩写, 意指规则左边。

 RHS 是 Right Hand Side 的缩写, 意指则右边。

 3.4等价类获取图 13 等价类获取 1

  图 14 等价类获取 2:

 选择属性

  图 15 选择属性{头疼, 体温}得到的等价类

 图 16 等价类获取 3:

 选择属性

  图 17 选择属性{头疼, 肌肉疼}得到的结果

 3.5上下近似集获取图 18 获取上下近似集 1

 图 19 获取上下近似集 2:

 选择决策值和属性图 20 获取上下近似集 3:

 结果图 20 中 Universe 表示论域 U, Upper 表示上近似集, Lower 表示下近似集, Boundary表示边界域, Outside 表示负域。4 总 结本实验选取的数据是《软计算方法及其应用》 课程引用的例子, 实验结果与手工计算结果相符。

 ROSETTA 工具集本身自带了更大规模的数据源示例。

 也有很多学者将 ROSETTA 工

 具集应用于实践, 从他们发表的论文可以看出应用是成功的。通过本实验, 深化了我对粗糙集基本概念、 算法的理解, 增强了学习的兴趣。

 在粗糙集的学习过程中发现一些算法本身并不复杂, 但手工计算比较繁琐, 很适合计算机来完成。

 下面列出计算正域和相对核的 C++算法。计算正域的 C++代码:Set DecisionTable::POS(){ bool flag;Set pos;vector<Element>::iterator it1;vector<Element>::iterator it2;for(it1 = DT.begin(); it1<DT.end(); it1++){flag = true;for(it2 = DT.begin(); it2<DT.end(); it2++){if((*it1).ConditionEqual(*it2) && !((*it1).DecisionEqual(*it2))){flag = false;break;}}if(flag){pos.Add((*it1).GetU());}}return pos;}计算知识相对核的 C++代码:double DecisionTable::SigOfAttribute(const char &c){ double sig = 0.0;double x, y;DecisionTable dt;dt = *this;dt.RemoveConditionAttribute(c);//计算 D 对 C 的依赖度Set pos1;pos1 = this->POS();x = (double) pos1.Card() / this->NumberOfElement();//计算 D 对 C-{c}的依赖度Set pos2;pos2 = dt.POS();y = (double) pos2.Card() / dt.NumberOfElement();//计算属性 c 的重要度sig = x - y;return sig;}vector<char>...

推荐访问:聚类分析实验心得体会 心得体会 实验 分析