Posts
Suarne
Cancel

Installation Fork Chirpy on GitHub, rename the repository to USERNAME.github.io (where USERNAME is your GitHub username), and then open terminal and clone the fork to local by: $ git clone https:...

写在前面:渐变模式挖掘(gradual pattern mining)用于发掘“越···,越···”这类规则中各个组成部分之间存在的关联,如“速度越快、用时越短”、“熬夜越少,睡眠越好”等。这类人文语言所特有的模糊特性导致计算机是无法具体量化并很好地处理,所以渐进模式挖掘也是属于模糊挖掘的另一种表现形式。然后,通常情况下,“渐变”是一个时间概念,即逐渐变化。当前的算法并没有充分考虑到时效性这...

写在前面:传统的 top-$k$ 查询是针对事务的某个维度进行考量,比如找出利润最高的 $k$ 个商品组合,最频繁出现的 $k$ 个网络攻击等等。不可置否,这些单一查询是非常高效且有用,但在大多情况下,由于事务的复杂性,制定策略需要考虑多个维度。比如去某地旅游,预定的旅馆是综合考虑价格和距离景区的结果。因此,本文介绍如何在静态交易数据集上使用 Skyline 查询 Mining of sk...

写在前面:在数据挖掘领域中,隐私保护问题是普遍存在且难以根除。为此,学者们提出一个新的研究领域 privacy-preserving data mining (PPDM),通过修改源数据库,降低隐私信息在衡量标准中的真实值是其中一种解决办法。另一方面,高效用项集挖掘(high-utility itemset mining,HUIM)在近些年也取得充分的发展。这为研究 PPDM 提供了一种捷径...

写在前面:传统的高效用项集挖掘算法从数据集中挖掘海量的高效用项集,但这在一定程度上会给使用者造成一定的信息干扰,无法快速找出最重要的关键信息。为了解决这个问题,需要一种算法能够提供更简洁且有效的挖掘结果。因此,闭包(closed)概念被引入效用挖掘中。自然而然,如何从这些高效用闭包项集中还原(derive)所有的高效用项集也是需要解决的问题 Efficient Mining of a Co...

写在前面:本算法为 HUI-Miner 的改进算法,在原有的基础上增加了一些新的数据结构,通过减少生成 utility-list 的数量,进而达到提高运行效率的目的 Faster High-Utility Itemset Mining using Estimated Utility Co-occurrence Pruning 有关算法的绝大部分定义可以直接参考 HUI-Miner,本算法...

写在前面:HUI-Miner 是第一个 utility-list based 算法,也是第一个 “one-phase” 类算法,它在原数据集上进行挖掘,进而保证所有生成的项集都是在原数据集中出现过的。此外, utility-list 结构能够对关键信息进行压缩处理,使得算法能够提前剪枝,达到减少 candidates 的目的。目前,有不少学者在继续对 HUI-Miner 算法进行研究,提出各...

写在前面:处理现实的数据集(即时刻变化中),如何在这些动态数据集上或者对两个不同时刻的同一数据集进行挖掘分析是一个很有价值的问题;因此,该论文提出了一个新的概念叫做 emerging pattern 来表示那些支持度显著变化的项,并以此设计了一种更高效的分类算法 Efficient Mining of Emerging Patterns: Discovering Trends and Di...

写在前面:连续序列挖掘(contiguous sequential pattern mining)是一种在我们日常生活中十分常见的任务,如网页日志、DNA序列分析、物体运行轨迹等等,但是现有的挖掘算法并不能对该类型数据进行高效挖掘,因为它们通常得到的序列,其组成的各个元素之间是没有连续性,是割裂的状态,所以该算法提出一个更好的方案来解决持续性复杂序列挖掘问题 Utility-driven ...

写在前面:根据传统的效用项集挖掘算法得到的高效用项集,是一个高度抽象的集合,并没有反应出该集合内部元素为什么能够构成高效用项集,它们之间存在何种关联也无从得知,因此,cross-level HUIM algorithms正是为了解决该问题而提出 Mining Top-K Cross-Level High Utility Itemsets 定义 大部效用值计算分内容在 HUI-Miner...