写在前面：连续序列挖掘（contiguous sequential pattern mining）是一种在我们日常生活中十分常见的任务，如网页日志、DNA序列分析、物体运行轨迹等等,但是现有的挖掘算法并不能对该类型数据进行高效挖掘，因为它们通常得到的序列，其组成的各个元素之间是没有连续性，是割裂的状态，所以该算法提出一个更好的方案来解决持续性复杂序列挖掘问题

Utility-driven Mining of Contiguous Sequences

动机

在原高校用项集序列挖掘中，得到的结果并没有考虑结果中的元素各自存在的联系，本算法目的是为了解决在有序规则下，挖掘出有序且连续的子序列

定义

项（item）	数据集中最小的单位，用 $x_i$ 表示，有限个数
项集（itemset）	由有限个项组成，非空，用 $X$ 表示，且组成的各个项之间默认字典序
序列（sequence）	由有限个项集组成，非空，用 $S$ 表示，且组成的各个项集之间有序
量化项（quantitative item）	给项赋予 utility 和 quantity 属性，用 ($x_i$:$q$) 或 $q$-item 表示
量化项集（quantitative itemset）	同上，有限个 $q$-items 构成，且组成的各个项之间有序
量化序列（quantitative sequence）	同上，有限个 $q$-itemsets 构成，有序，且有唯一标号 SID

连续序列（contiguous sequence）：给定两个不同的序列 $S_m$ 和 $S^\prime_n$（下标表示该序列包含不同项集的个数），对于任意 $1 \le k \le n-m+1$，有 $X_1 \subseteq X^\prime_{k}$, $X_2 \subseteq X^\prime_{k+1}$, $\ldots$, $X_m \subseteq X^\prime_{k+m-1}$ 成立，则 $S$ 是 $S^\prime$ 的连续子序列；反过来，$S^\prime$ 是 $S$ 的连续超序列【如 <{$a$}, {$af$}> 与 <{$c$}, {$ab$}, {$aef$}>】
匹配（matching）：给定项集 $X$ 和量化项集 $Y$，当有且仅有对于任意 $1 \le k \le m$，有 $x_k$ = $y_k$，则称 $X$ 匹配 $Y$，记作 $X \sim Y$；序列同理；显然，根据 quantity 属性的不同，$X$ 可以匹配多个 $Y$
实例（instance）：给定序列 $S_m$ 和量化序列 $Q_n$（下标表示该序列包含不同项集的个数，$m \le n$），若 $\exists p$, $m \le p \le n$ 且 $\forall k$, $1 \le k \le m$，有 $X^\prime_k \sim Y_{p-m+k}$ 且 $X_k \subseteq X^\prime_k$ 成立，则称 $Q_n$ 在截止处 $p$ 有 $S_m$ 的一个实例，根据截止的位置不同，显然是存在 $Q_n$ 对 $S_m$ 的多个不同实例
Ps. 论文中特别地对截止位置集合符号化为 EP(S, Q)，且当 Q 至少存在一个 S 的实例，则称 Q 包含 S，符号化为 $S \sqsubseteq Q$
效用值（utility）：对于在量化序列 $Q$ 的第 $j$ 个量化项集中的量化项 $x_i$，它的效用值计算公式是 $u(x_i, j, Q)$ = $q(x_i, j, Q) \times p(x_i)$ 【也就是 quantity * profit】；以此推理，
- 包含 $x_i$ 的量化项集 $X$ 的效用值计算公式是 $u(X, j, Q)$ = $\sum_{x_i \in X}u(x_i, j, Q)$；
- $Q$ 关于 $S$ 的某个实例的效用值为 $u(S, p, Q)$ = $\sum^m_{j=1}u(X_j, p-m+j, Q)$；
- 因为存在多个实例，所以取最大值作为估值 $u(S, Q)$ = max{$u(S, p, Q) \mid \forall p \in EP(S, Q)$}；
- 最后，序列 $S$ 在数据集 $D$ 中的效用值为 $u(S)$ = $\sum_{Q \in D}u(S, Q)$
序列权重效用值（sequence-weighted utilization, SWU）：是一个具有向下封闭性的预估值，可以作为剪枝的判断条件，其表达式为$SWU$($S$) = $\sum_{S \sqsubseteq Q \land Q \subseteq D}u(Q)$【但这是一个非常松散的预估值，解释在 GUIP 剪枝策略部分】
高效用连续序列模式（high-utility contiguous sequential pattern）：根据上一条的效用值定义，序列 $S$ 是 HUCSP 当且仅当其效用值不低于 $\xi \times u(D)$，$\xi$ 是用户预先设置的最低阈值，以百分比形式出现
扩展（extension）：任何低阶项集都要通过一定的方法才能组合成高阶项集，在序列挖掘中，通常每次只扩展一个项，给定序列 $S$ 和项 $x_i$，本论文介绍了两种扩展方式：
- 项扩展（I-extension）：将 $x_i$ 直接扩展在 $S$ 的最后一个项集上，记为 <$S \oplus x_i$>，注意，该操作并不会增大序列的长度，
- 序列扩展（s-extension）：将 $x_i$ 作为一个新的项集扩展在 $S$ 的末尾，记为 <$S \otimes x_i$>，这样会使得 $S$ 长度加 1
扩展项（(extension item）：给定 $S$, $Q$ 和 $x_i$，其中 $x_i$ 是 $S$ 的最后一个项，$EP(S, Q)$ = {$ep_1$, $\ldots$, $ep_n$}，那么，
- 关于 $S$ 在 $Q$ 上的 I-extension 的集合记为 $Iitem$($S$, $Q$)；同理，在 $D$ 上的集合记为 $Iitem$($S$) = $\bigcup_{Q \in D}$$Iitem$($S$, $Q$)
- 关于 $S$ 在 $Q$ 上的 S-extension 的集合记为 $Sitem$($S$, $Q$)；同理，在 $D$ 上的集合记为 $Sitem$($S$) = $\bigcup_{Q \in D}$$Sitem$($S$, $Q$)
剩余序列（remaining sequence）：在有序规则下，假定 $Q$ 在 $S$ 的 $p$ 位置处有一个实例，关于 $Q$ 在 $S$ 上的剩余序列记为 $Q / {(S, p)}$，同时也可以称为是 $Q$ 的后缀序列；对应地，其剩余序列的效用值的公式为 $ru(Q / _{(S, p)})$ = $\sum{x_i \in Q / _{(S, p)}}u(x_i)$
项扩展效用值（item-extension utilization）：给定 $S$, $S^\prime$, $Q$，其中有 $S \subseteq S^\prime$, $S \oplus/\otimes x_i$ = $S^\prime$, $Q$ 是 $S$ 的一个实例，$Q^p$ 表示在 $Q$ 中的第 $p$ 个项集，$p \in EP(S, Q)$，那么，
- 对于 I-extension（$S^\prime$ = $S \oplus x_i$），有且仅有 $x_i \in Q^p$ 时，$IEU(S^\prime, p, Q)$ = $u(S, p, Q)$ + $u(x_i, p, Q)$ + $ru(Q/_{(x_i, p)})$；反之，$IEU(S^\prime, p, Q)$ = 0
- 对于 S-extension（$S^\prime$ = $S \otimes x_i$），有且仅有 $x_i \in Q^{p+1}$ 时，$IEU$($S^\prime, p, Q$) = $u(S, p, Q)$ + $u(x_i, p+1, Q)$ + $ru(Q/_{(x_i, p+1)})$；反之，$IEU(S^\prime, p, Q)$ = 0
- 对于多个 I-extension 或 S-extension，$IEU(S^\prime, p, Q)$ = $max_{p \in (S, Q)}IEU(S^\prime, p, Q)$；更进一步，$IEU$($S$) = $\sum_{S \sqsubseteq Q \land Q \subseteq D}IEU(S, Q)$
序列信息列表（sequence information list, SIL）：类同于效用列表（utility list），每个 list 存储的是一个 $Q$，量化序列中至少有一个 $q$-itemset，每个项集中存储着至少一个元组（$q$-item, real utility 和 remaining utility），结构图如下
实例链（instance-chain, IChain）：存储着 EP($S$, $Q$) 信息，以及该实例在对应截止位置 $p$ 的效用值，本质上是压缩存储实例信息，结构图如下

剪枝策略

GUIP strategy

根据 $u(S)$ 的定义可以知道$SWU$($S$) 其实比真正的效用值要大很多，这样导致的直接结果就是无效的 candidates 数量变多；所以该论文在原$SWU$ 剪枝策略的基础上，每一次过滤掉低效用的 $x_i$，就更新 $Q$ 和对应的剩余效用值，直到完全删除所有的低效用项

LUIP strategy

原论文中给了详细的证明推理过程，在这里就不做过多阐述；根据 $IEU(S)$ 的定义，当其小于最低阈值时，$S$ 和其扩展序列都是低效用，可以直接被剪除

伪代码

FUCPM algorithm

FUCPM algorithm

Recursive search

Recursive search

总结

该算法本质上是一个 list-based 算法，在剪枝低效用项时采用贪心思想，反复循环直至最优解，这样带来的一个问题是在处理不同的数据集，资源消耗情况如何？从内存开支表现上看，在稠密数据集上表现优异，但在稀疏数据集上消耗明显变大，甚至不如比对的基准算法；但这样带来的好处也是非常明显，即在时间开支上是明显偏小，因为前期删除了大量低效用的项，在生成高阶项集的数量上会少很多，该论文的 candidates 比对实验图中也证实了这一点（稀疏数据集除外），且策略比对实验数据也能说明；最后的 HUSPM算法与 UCSPM算法比对实验可以看出，contiguous sequence 在数量上是远远偏小，这在一定程度上可以减轻分析数据的困难程度。个人认为 UCSPM 是一个非常好的研究方向，其适用领域也很多

FUCPM算法

Utility-driven Mining of Contiguous Sequences

动机

定义

剪枝策略

GUIP strategy

LUIP strategy

伪代码

总结

Trending Tags

Contents

Trending Tags

FUCPM算法

Utility-driven Mining of Contiguous Sequences

动机

定义

剪枝策略

GUIP strategy

LUIP strategy

伪代码

总结

Trending Tags

Contents

Further Reading

HUSP-ULL算法

USpan算法

HUSRM算法

Trending Tags