Posts
Suarne
Cancel

写在前面:这是2020年最新的一篇关于高效用序列挖掘的算法,基于常见的LQS-tree,结合list结构,辅之以 LAR 和 IIP 两种高效的剪枝策略,显著地降低了挖掘过程中消耗的资源,并且通过实验与 USpan、HUS-Span 和 ProUM 三个算法比较,HUSP-ULL算法的性能表现最好 Fast Utility Mining on Sequence Data 需要特别强调的一...

写在前面:SPADE在序列挖掘中属于比较早且有名的算法,针对序列挖掘任务本身的一系列痛点给出了一套解决方案,如 栅格检索(lattice search technique),id列表(vertical id-list)等等。之前研究的情节效用(episode utility)也属于序列挖掘下的一个分支,区别在于SPADE考虑每条序列是互相独立状态,而episode sequence是相互关联...

写在前面:序列模式挖掘已经是一个被广泛研究的领域,为了解决因寻找合适的阈值而需要的无效时间问题,top-k思想自然提上议程。而在top-k领域,如何快速提升阈值是最关键的环节,因此,主要学习本算法的局部优先探索思路。 Efficient Mining of Top-K Sequential Patterns 介绍 序列模式挖掘(sequential pattern mining)是一个...

写在前面:距离上一篇USpan算法学习已经过去了很久,这次再来学习 sequence mining,本文解决了关联规则推导这一环节,把以前单纯地挖掘 sequence patterns 的工作推进一步。HUSRM算法运用到的策略比较多,需要花点功夫去研究一下 Efficient Mining of High-Utility Sequential Rules 样例 sequence da...

写在前面:模糊效用(fuzzy utility)挖掘和不确定数据集(uncertain dataset)之间有什么区别吗?两者又是不是能够结合在一起使用呢?今天要记录的这篇算法虽然年代久远(2015年,two-phase algorithm),但确实一篇比较经典的 fuzzy utility algorithm,需要好好研究一番 Fuzzy utility mining with uppe...

写在前面:Apriori算法与FP-Growth算法都是很经典的挖掘算法,自己也是断断续续地学习这两个算法。本文主要记录自己对这两个算法的理解和区别,有误的地方还请多多指教 辨析Apriori与FP-Growth Apriori算法 Apriori 算法使用了逐层搜索的迭代方法,即用 k-项集探索 (k+1)-项集(后续的 HUI-Miner、FHN 和 UMEpi 等算法都是这个思路...

写在前面:该算法是基于 HUI-Miner 的 utility-list 结构设计的 top-k挖掘算法,其中采取的不少阈值自增策略是值得我们学习研究,写这篇笔记的目的也是为了介绍这些策略以及个人的想法 An efficient algorithm for mining the top-k high utility itemsets, using novel threshold raisi...

写在前面:该算法的比较对象是UP-Span,其实我更想知道和UMEpi算法对比两者谁更优劣。因为双方采取的策略和定义优化有很大的相似性,区别在于存储结构的不同。个人认为这篇算法还是比较重要的,关键信息会着重标出。 Fast High Utility Episode Mining 样例 A complex event sequence External utility 定义 ...

写在前面:序列挖掘比单纯地效用挖掘更具广泛性,因为加上时间维度才是我们日常生活经常碰到的问题,当然这也会使得问题更加复杂。通过学习USpan算法,可以初步了解序列挖掘是一个怎么样的过程,为后续研究做个基础。 An Efficient Algorithm for Mining High Utility Sequential Patterns 样例 quality of items ...

写在前面:该算法针对UP-Span算法做出了很多改进,把候选项集数量给大大减少,也是在UP-Span算法的基础上进一步优化的结果,整体的设计思路是一致的。亮点在于设计了有序prefix-tree这种存储结构,使得挖掘过程中的信息能够得到有效保存而且无需重复计算,更重要的是,该算法提出两个比EWU更为紧凑的上界,很大程度上缩小了检索空间 High Utility Episode Mining...