写在前面：该算法针对UP-Span算法做出了很多改进，把候选项集数量给大大减少，也是在UP-Span算法的基础上进一步优化的结果，整体的设计思路是一致的。亮点在于设计了有序prefix-tree这种存储结构，使得挖掘过程中的信息能够得到有效保存而且无需重复计算，更重要的是，该算法提出两个比EWU更为紧凑的上界，很大程度上缩小了检索空间

High Utility Episode Mining Made Practical and Fast

样例

Complex Event Sequence

a simple complex event sequence

External Utility of Events

External Utility of Events

定义

大部分基础定义可以参考 UP-Span 这篇算法，这里仅给出一些补充：

一个情节的效用定义为 $u(\alpha) = \sum_{mo(\alpha) \in moSet(\alpha)}u(\alpha, \, mo(\alpha)) / u(CES)$，其中 $mo(\alpha)$ 指的是情节 $\alpha$ 在整个事件序列上出现的最小时间段/点（minimal occurrences，比如说一个人在一天三个不同时间点花同样长的时间吃饭）；$u(CES)$ 指的是整个复杂事件序列的总效用值，这里采用比率的形式来增加可信度
MTD（maximum time duration）就是时间窗口，指特别规定只考虑在这个时间长度内发生的事件之间的关联规则，否则工作量会无穷大，而且得到结果的时效性也没那么强
情节权重效用（Episode Weighted Utility）类似于 TWU，单个情节 $\alpha$ 的 $EWU(\alpha)$ 计算公式为： $EWU(\alpha, mo(\alpha)) = \sum_{\rm i = 1}^{\rm n}u(SE_{\rm i}, \, T_{\rm i}) + \sum_{\rm i = e}^{\rm s+MTD-1}u(CES_{\rm i}, \, T_{\rm i}) \\ EWU(\alpha) = \sum_{\rm i=1}^{\rm k}EWU(\alpha, \, mo(\alpha)_{\rm i}) / u(CES)$ Ps. 因为 $mo(\alpha) = [T_{\rm s}, \, T_{\rm e}]$，所以 $s$ 是起始时间点，$e$ 是终止时间点，需要明白 $EWU(\alpha, mo(\alpha))$ 的计算意义（可以类比 TWU/SWU 进行理解）
对情节的拓展采用方式是把事件逐个添加到尾部，当时间跨度没有发生变化时，称为 I-Concatenation，当时间跨度变长时，称为 S-Concatenation
有序前缀树（lexicographic prefix tree）根据上一条定义的拓展方式，从根节点逐步构造出一棵含有完整信息的树，每个节点之间都是有序的，示意图如下：
Ps. 可以明显看得出来这棵树在没有剪枝的情况下是非常大的，对此我们可以把构造过程进行拆分，把这棵大树拆成四棵局部小树（根节点为 a、b、c、d），然后对每棵小树依然可以采用同样的方式（相当于空间换时间）黑色实线是使用EWU进行的初步剪枝效果，红色虚线是该算法采用的新上边界剪枝策略产生的效果

策略

Improved EWU for I-Concatenation

简称“IEIC”，是在 I-Concatenation 方法之前得到的一个新的上边界，通过这个上边界，I-Concatenation就可以避免对情节 $\alpha$ 的效用值进行重复计算，计算公式如下： $IEIC(\alpha, \, mo_{\rm i}(\alpha)) = \sum_{\rm j = 1}^{\rm k}u(SE_{\rm j}, \, T_{\rm j}) + u(IES_{\rm i}(\alpha)) + u(SES_{\rm i}(\alpha)) \\ IEIC(\alpha) = (u(\alpha) + u(IES(\alpha)) + u(SES(\alpha))) / u(CES)$ 其中，$IES(\alpha)$ 是计算在情节 $\alpha$ 内，排在当前事件之后的剩余事件的总效用值，$SES(\alpha)$ 是计算情节 $\alpha$ 后续事件序列的效用值（utility of events in subsequent，$CES_{\rm i}$）

Improved estimation of EWU for S-Concatenation

简称“IESC”，是在 S-Concatenation 方法之前得到的一个新的上边界，通过这个上边界，S-Concatenation可以得到相同的效果，因为它是串行连接，所以考虑因素更少，计算公式如下： $IESC(\alpha) = (u(\alpha) + u(SES(\alpha))) / u(CES)$

算法

I-Concatenation

可以看作是并行连接，这个过程简单一些，只要把新的事件 $\beta$ 直接挂在情节 $\alpha$ 尾部即可，需要注意的是他们的结束时间 $T_{\rm e}$ 必须保持一致

I-Concatenation

S-Concatenation

可以看作串行连接，但更复杂一些，需要筛去重叠的时间段，避免重复计算，其它过程的思路和并行连接一致

S-Concatenation

Prefix-Growth

论文中起了另外一个名字 $TSpan$，也是本算法的简称

TSpan

总结

TSpan算法有些证明过程被省略了（我找到的可能是会议版）。从实验结果上来看比UP-Span要好很多，而且提出的这两个新的上边界确实能够起到很大的筛选作用（不过我看着怎么这么像HUI-Miner和EFIM中的剩余项效用边界，remaining utility upper bound）而且我注意到在测试数据集的平均长度偏大的时候，生成的候选节点数和运行时间都是陡直上升，这说明剪枝还是不够充分，最为困难的是事件组合不同于项集组合那般容易。我想可以考虑只对串行或并行进行剪枝优化，但这样会不会因为剪掉了一些节点而影响到另一个挖掘进程？

TSpan算法

High Utility Episode Mining Made Practical and Fast

样例

定义

策略

算法

总结

Trending Tags

Contents

Trending Tags

TSpan算法

High Utility Episode Mining Made Practical and Fast

样例

定义

策略

算法

总结

Trending Tags

Contents

Further Reading

UP-Span算法

TUP算法

UMEpi算法

Trending Tags