Posts UBER-Mine算法
Post
Cancel

UBER-Mine算法

写在前面:该算法基于UP-Growth算法改进,提出一个新的基于情节效用的模型 IV-UBER (InVestment by Utility-Based Episode Rules model)对股票进行预测,使用该模型能得到比UP-Span和prefix-Span算法更优异的结果。

Discovering utility-based episode rules in complex event sequence

样例

an icomplex event sequence

定义

大部分内容可以参考 UP-Span算法,这里仅作一些补充:

  • user-specified window size (WS) 是指预先设置的窗口大小,即时间跨度。
  • 窗口(window)定义为 $W^{\rm h} = <(SE_{\rm h}, T_{\rm h}), \, (SE_{\rm h+1}, T_{\rm h+1}), \, \ldots, \, (SE_{\rm h+WS-1}, T_{\rm h+WS-1})>$ ,其中 $1 \le h \le (\mid C \mid - WS + 1)$,$\mid C \mid$ 指的是复杂事件序列的时间跨度
  • 该文里把事件长度定义为时间跨度,其实在大部分情节效用挖掘相关论文里都是这个定义
  • 并行连接(simultaneous concatenation)表示为 $\alpha \, \square \, \beta$(好奇怪的表达方式);串行连接(serial concatenation)表示为 $\alpha \, \cdot \, \beta$
  • 论文中额外定义了结束时间点(end time points)$ETSet(\alpha) = \lbrace T_{\rm e}^1, \, \ldots \, T_{\rm e}^{\rm n} \rbrace$(这一点之前文章里没有)
  • 发生在窗口内(window-based occurrence),顾名思义就是大于事件 $\alpha$ 的时间跨度的窗口,这种窗口可以有很多个,由 $\mid woSet(\alpha) \mid$ 表示
  • 整个复杂事件序列的效用值 $CU_{\rm WS} = \sum_{\rm i=WS+1}^{\rm \mid u-SE_{\rm i} \mid}u(u-SE_{\rm i}, \, T_{\rm i})$,但这个为什么要这么设置?(需要注意的是,这里的 $u-SE_{\rm i}$ 指的是在某个时间点上的总效用值,因为书写原因“$-$”是连字符,不是减号)
  • 最大效用值(maximum utility)定义为 $MUR(X) = \sum_{\rm i=1}^{\rm k}u(uSE_{\rm p_{\rm i+1}}, \, p_{\rm i} + 1)$,作用是提供向下闭合性(downward closure property),即子集不高效,那么扩展集一定不高效

算法

UBER-Mine

主体思想为从长度为1的情节开始挖掘,找出所有高效的1-episode然后进行串并组合,得出高阶高效用情节

UBER-Mine main algorithm

MineSimuUBER

当被组合情节截至时间点上还有其它情节发生(因为这里加上了时间跨度,算法是从单个时间点逐步扩展成时间段),可以把这两个情节看作在这个时间段上是同时(simultaneous)发生的

MineSimuUBER method

MineSerialUBER

以窗口长度为一个时间跨度,在这个跨度内发生的事件都可以作为串连(serial)对象

MineSerialUBER method

CalculateUtility

Calculate Utility method

GenUBER

核心在于 UP-Growhth 算法的运用,需要注意本算法为了构造UR-Tree对前面的串并连方法进行一定程度的修改,变成以时间点为检索条件,构造header-table,进而把所有关键信息存入UR-Tree

GenUBER method

总结

该算法基于UP-Growth算法改进,再次说明树型结构有很强的扩展性,通过设置不同的索引建表,把所有关键性息存储在Tree中,以达到节省时间的目的。个人认为UBER-Mine算法前期对事件序列的准备工作过于漫长和繁琐,虽然也用到向下封闭的性质来剪枝,但由于UP-Growth算法本身构树过程复杂,这样会进一步加大运行工作量。能否可以设置其它的索引变量来达到效率的提升?或者是使用其它对UP-Growth能够有效优化的策略?(有些策略是基于 transaction database,所以不一定适用于 sequence database)

This post is licensed under CC BY 4.0 by the author.