Treap - 堆和二叉树的完美结合,性价比极值的搜索树 - 今日头条

本文由 简悦 SimpRead 转码, 原文地址 www.toutiao.com

大家好,今天和大家聊一个新的数据结构,叫做 Treap。Treap 本质上也是一颗 BST(平衡二叉搜索树),和我们之前介绍的 SBT 是一样的。

大家好,今天和大家聊一个新的数据结构,叫做 Treap。

Treap 本质上也是一颗 BST(平衡二叉搜索树),和我们之前介绍的 SBT 是一样的。但是 Treap 维持平衡的方法和 SBT 不太一样,有些许区别,相比来说呢,Treap 的原理还要再简单一些,所以之前在竞赛当中不允许使用 STL 的时候,我们通常都会手写一棵 Treap 来代替。

既然是平衡二叉搜索树,关键点就在于平衡,那么重点自然是如何维护树的平衡。

在 Treap 当中,维护平衡非常简单,只有一句话,就是通过维护小顶堆的形式来维持树的平衡。Treap 也正是因此得名,因为它是 Tree 和 Heap 的结合体。

我们来看下 Treap 当中节点的结构:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
class TreapNode(TreeNode):
    """
    TreeNode: The node class of treap tree.
    Paramters: 
        key: The key of node, can be treated as the key of dictionary
        value: The value of node, can be treated as the value of dictionary
        priority: The priority of node, specially for treap structure, describe the priority of the node in the treap. 
        lchild: The left child of node
        rchild: The right child of node
        father: The parent of node, incase that we need to remove or rotate the node in the treap, so we need father parameter to mark the address of the parent
    """
    def __init__(self, key=None, value=None, lchild=None, rchild=None, father=None, priority=None):
        super().__init__(key, value, lchild, rchild, father)
        self._priority = priority

    @property
    def priority(self):
        return self._priority

    @priority.setter
    def priority(self, priority):
        self._priority = priority

    def __str__(self):
        return 'key={}, value={}'.format(self.key, self.value)

这里的 TreeNode 是我抽象出来的树结构通用的 Node,当中包含 key、value、lchild、rchild 和 father。TreapNode 其实就是在此基础上增加了一个 priority 属性。

之所以要增加这个 priority 属性是为了维护它堆的性质,通过维护这个堆的性质来保持树的平衡。具体的操作方法,请往下看。

首先来讲 Treap 的插入元素的操作,其实插入元素的操作非常简单,就是普通 BST 插入元素的操作。唯一的问题是如何维持树的平衡。

我们前文说了,我们是通过维持堆的性质来保持平衡的,那么自然又会有一个新的问题。为什么维持堆的性质可以保证平衡呢?

答案很简单,因为我们在插入的时候,需要对每一个插入的 Node 随机附上一个 priority。堆就是用来维护这个 priority 的,保证树根一定拥有最小的 priority。正是由于这个 priority 是随机的,我们可以保证整棵树蜕化成线性的概率降到无穷低

当我们插入元素之后发现破坏了堆的性质,那么我们需要通过旋转操作来维护。举个简单的例子,在下图当中,如果 B 节点的 priority 比 D 要小,为了保证堆的性质,需要将 B 和 D 进行互换。由于直接互换会破坏 BST 的性质,所以我们采取旋转的操作。

https://p26.toutiaoimg.com/origin/pgc-image/71b5324e53144fb0a53abd5bcb9b029b?from=pc

旋转之后我们发现 B 和 D 互换了位置,并且旋转之后的 A 和 E 的 priority 都是大于 D 的,所以旋转之后我们整棵树依然维持了性质。

右旋的情况也是一样的,其实我们观察一下会发现,要交换左孩子和父亲需要右旋,如果是要交换右孩子和父亲,则需要左旋

整个插入的操作其实就是基础的 BST 插入过程,加上旋转的判断。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def _insert(self, node, father, new_node, left_or_right='left'):
        """
        Inside implement of insert node.
        Implement in recursion.
        Since the parameter passed in Python is reference, so when we add node, we need to assign the node to its father, otherwise the reference will lose outside the function.
        When we add node, we need to compare its key with its father's key to make sure it's the lchild or rchild of its father.
        """
        if node is None:
            if new_node.key < father.key:
                father.lchild = new_node
            else:
                father.rchild = new_node
            new_node.father = father
            return
        if new_node.key < node.key:
            self._insert(node.lchild, node, new_node, 'left')
            # maintain
            if node.lchild.priority < node.priority:
                self.rotate_right(node, father, left_or_right)
        else:
            self._insert(node.rchild, node, new_node, 'right')
            # maintain
            if node.rchild.priority < node.priority:
                self.rotate_left(node, father, left_or_right)

前面的逻辑就是 BST 的插入,也就是和当前节点比大小,决定插入在左边还是右边。注意一下,这里我们在插入完成之后,增加了 maintain 的逻辑,其实也就是比较一下,刚刚进行的插入是否破坏了堆的性质。可能有些同学要问我了,这里为什么只 maintain 了一次?有可能插入的 priority 非常小,需要一直旋转到树根不是吗?

的确如此,但是不要忘了,我们这里的 maintain 逻辑并非只调用一次。随着整个递归的回溯,在树上的每一层它其实都会执行一次 maintain 逻辑。所以是可以保证从插入的地方一直维护到树根的。

查询很简单,不用多说,就是 BST 的查询操作,没有任何变化。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
def _query(self, node, key, backup=None):
        if node is None:
            return backup
        if key < node.key:
            return self._query(node.lchild, key, backup)
        elif key > node.key:
            return self._query(node.rchild, key, backup)
        return node

    def query(self, key, backup=None):
        """
        Return the result of query a specific node, if not exists return None
        """
        return self._query(self.root, key, backup)

删除的操作稍微麻烦了一些,由于涉及到了优先级的维护,不过逻辑也不难理解,只需要牢记需要保证堆的性质即可。

首先,有两种情况非常简单,一种是要删除的节点是叶子节点,这个都很容易想明白,删除它不会影响任何其他节点,直接删除即可。第二种情况是链节点,也就是说它只有一个孩子,那么删除它也不会引起变化,只需要将它的孩子过继给它的父亲,整个堆和 BST 的性质也不会受到影响。

对于这两种情况之外,我们就没办法直接删除了,因为必然会影响堆的性质。这里有一个很巧妙的做法,就是可以先将要删除的节点旋转,将它旋转成叶子节点或者是链节点,再进行删除

在这个过程当中,我们需要比较一下它两个孩子的优先级,确保堆的性质不会受到破坏。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
def _delete_node(self, node, father, key, child='left'):
        """
        Implement function of delete node.
        Defined as a private function that only can be called inside.
        """
        if node is None:
            return
        if key < node.key:
            self._delete_node(node.lchild, node, key)
        elif key > node.key:
            self._delete_node(node.rchild, node, key, 'right')
        else:
            # 如果是链节点,叶子节点的情况也包括了
            if node.lchild is None:
                self.reset_child(father, node.rchild, child)
            elif node.rchild is None:
                self.reset_child(father, node.lchild, child)
            else:
                # 根据两个孩子的priority决定是左旋还是右旋
                if node.lchild.priority < node.rchild.priority:
                    node = self.rotate_right(node, father, child)
                    self._delete_node(node.rchild, node, key, 'right')
                else:
                    node = self.rotate_left(node, father, child)
                    self._delete_node(node.lchild, node, key)

                    
    def delete(self, key):
        """
        Interface of delete method face outside.
        """
        self._delete_node(self.root, None, key, 'left')

修改的操作也非常简单,我们直接查找到对应的节点,修改它的 value 即可。

我们也贴一下旋转操作的代码,其实这里的逻辑和之前 SBT 当中介绍的旋转操作是一样的,代码也基本相同:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
def reset_child(self, node, child, left_or_right='left'):
        """
        Reset the child of father, since in Python all the instances passed by reference, so we need to set the node as a child of its father node.
        """
        if node is None:
            self.root = child
            self.root.father = None
            return
        if left_or_right == 'left':
            node.lchild = child
        else:
            node.rchild = child
        if child is not None:
            child.father = node


 def rotate_left(self, node, father, left_or_right):
        """
        Left rotate operation of Treap.
        Example: 

                D
              /   \
             A      B
                   / \
                  E   C

        After rotate:

                B
               / \
              D   C
             / \
            A   E 
        """
        rchild = node.rchild
        node.rchild = rchild.lchild
        if rchild.lchild is not None:
            rchild.lchild.father = node
        rchild.lchild = node
        node.father = rchild
        self.reset_child(father, rchild, left_or_right)
        return rchild

    def rotate_right(self, node, father, left_or_right):
        """
        Right rotate operation of Treap.
        Example: 

                D
              /   \
             A     B
            / \
           E   C

        After rotate:

                A
               / \
              E   D
                 / \
                C   B 
        """
        lchild = node.lchild
        node.lchild = lchild.rchild
        if lchild.rchild is not None:
            lchild.rchild.father = node
        lchild.rchild = node
        node.father = lchild
        self.reset_child(father, lchild, left_or_right)
        return lchild

这里唯一要注意的是,由于 Python 当中存储的都是引用,所以我们在旋转操作之后必须要重新覆盖一下父节点当中当中的值才会生效。负责我们修改了 node 的引用,但是 father 当中还是存储的旧的地址,一样没有生效。

基本上到这里整个 Treap 的原理就介绍完了,当然除了我们刚才介绍的基本操作之外,Treap 还有一些其他的操作。比如可以 split 成两个 Treap,也可以由两个 Treap 合并成一个。还可以查找第 K 大的元素,等等。这些额外的操作,我用得也不多,就不多介绍了,大家感兴趣可以去了解一下。

Treap 这个数据结构在实际当中几乎没有用到过,一般还是以竞赛场景为主,我们学习它主要就是为了提升和锻炼我们的数据结构能力以及代码实现能力。Treap 它的最大优点就是实现简单,没有太多复杂的操作,但是我们前面也说了,它是通过随机的 priority 来控制树的平衡的,那么它显然无法做到完美平衡,只能做到不落入最坏的情况,但是无法保证可以进入最好的情况。不过对于二叉树来说,树深的一点差距相差并不大。所以 Treap 的性能倒也没有那么差劲,属于一个性价比非常高的数据结构。

最后,还是老规矩,我把完整的代码放在了 paste 当中,大家感兴趣可以点击阅读原文查看,代码里都有详细的注释,大家应该都能看明白。

今天的文章就到这里,衷心祝愿大家每天都有所收获。如果还喜欢今天的内容的话,请来一个三连支持吧~(点赞、关注、转发

本文始发于公众号:TechFlow,求个关注