Cancel

HUSP-ULL算法

写在前面：这是2020年最新的一篇关于高效用序列挖掘的算法，基于常见的LQS-tree，结合list结构，辅之以 LAR 和 IIP 两种高效的剪枝策略，显著地降低了挖掘过程中消耗的资源，并且通过实验与 USpan、HUS-Span 和 ProUM 三个算法比较，HUSP-ULL算法的性能表现最好 Fast Utility Mining on Sequence Data 需要特别强调的一...

Sep 21, 2021 2021-09-21T08:34:53+08:00

SPADE算法

写在前面：SPADE在序列挖掘中属于比较早且有名的算法，针对序列挖掘任务本身的一系列痛点给出了一套解决方案，如栅格检索（lattice search technique），id列表（vertical id-list）等等。之前研究的情节效用（episode utility）也属于序列挖掘下的一个分支，区别在于SPADE考虑每条序列是互相独立状态，而episode sequence是相互关联...

Sep 18, 2021 2021-09-18T21:56:25+08:00

TKS算法

写在前面：序列模式挖掘已经是一个被广泛研究的领域，为了解决因寻找合适的阈值而需要的无效时间问题，top-k思想自然提上议程。而在top-k领域，如何快速提升阈值是最关键的环节，因此，主要学习本算法的局部优先探索思路。 Efficient Mining of Top-K Sequential Patterns 介绍序列模式挖掘（sequential pattern mining）是一个...

Jun 12, 2021 2021-06-12T23:49:36+08:00

HUSRM算法

写在前面：距离上一篇USpan算法学习已经过去了很久，这次再来学习 sequence mining，本文解决了关联规则推导这一环节，把以前单纯地挖掘 sequence patterns 的工作推进一步。HUSRM算法运用到的策略比较多，需要花点功夫去研究一下 Efficient Mining of High-Utility Sequential Rules 样例 sequence da...

May 21, 2021 2021-05-21T22:38:55+08:00

TPFU算法

写在前面：模糊效用（fuzzy utility）挖掘和不确定数据集（uncertain dataset）之间有什么区别吗？两者又是不是能够结合在一起使用呢？今天要记录的这篇算法虽然年代久远（2015年，two-phase algorithm），但确实一篇比较经典的 fuzzy utility algorithm，需要好好研究一番 Fuzzy utility mining with uppe...

May 7, 2021 2021-05-07T00:17:06+08:00

辨析Apriori与FP-Growth

写在前面：Apriori算法与FP-Growth算法都是很经典的挖掘算法，自己也是断断续续地学习这两个算法。本文主要记录自己对这两个算法的理解和区别，有误的地方还请多多指教辨析Apriori与FP-Growth Apriori算法 Apriori 算法使用了逐层搜索的迭代方法，即用 k-项集探索 (k+1)-项集（后续的 HUI-Miner、FHN 和 UMEpi 等算法都是这个思路...

Apr 13, 2021 2021-04-13T17:12:11+08:00

kHMC算法

写在前面：该算法是基于 HUI-Miner 的 utility-list 结构设计的 top-k挖掘算法，其中采取的不少阈值自增策略是值得我们学习研究，写这篇笔记的目的也是为了介绍这些策略以及个人的想法 An efficient algorithm for mining the top-k high utility itemsets, using novel threshold raisi...

Apr 2, 2021 2021-04-02T02:03:02+08:00

HUE-Span算法

写在前面：该算法的比较对象是UP-Span，其实我更想知道和UMEpi算法对比两者谁更优劣。因为双方采取的策略和定义优化有很大的相似性，区别在于存储结构的不同。个人认为这篇算法还是比较重要的，关键信息会着重标出。 Fast High Utility Episode Mining 样例 A complex event sequence External utility 定义 ...

Mar 1, 2021 2021-03-01T00:00:00+08:00

USpan算法

写在前面：序列挖掘比单纯地效用挖掘更具广泛性，因为加上时间维度才是我们日常生活经常碰到的问题，当然这也会使得问题更加复杂。通过学习USpan算法，可以初步了解序列挖掘是一个怎么样的过程，为后续研究做个基础。 An Efficient Algorithm for Mining High Utility Sequential Patterns 样例 quality of items ...

Feb 22, 2021 2021-02-22T10:25:19+08:00

TSpan算法

写在前面：该算法针对UP-Span算法做出了很多改进，把候选项集数量给大大减少，也是在UP-Span算法的基础上进一步优化的结果，整体的设计思路是一致的。亮点在于设计了有序prefix-tree这种存储结构，使得挖掘过程中的信息能够得到有效保存而且无需重复计算，更重要的是，该算法提出两个比EWU更为紧凑的上界，很大程度上缩小了检索空间 High Utility Episode Mining...

Feb 20, 2021 2021-02-20T00:00:00+08:00