힙(Heap)
힙은 힙의 특성(최소 힙에서는 부모가 항상 자식보다 작거나 같다)을 만족하는 거의 완전한 트리인 특수한 트리 기반의 자료구조
완전 이진 트리 기반의 최댓값과 최솟값을 빠르게 찾아내기 위한 자료구조
- 히프 트리에서는 중복된 값 허용
- 반정렬상태(큰 값이 상위에 있고 작은 값은 하위에 있음)
- 부모의 인덱스 찾는 방법
- 부모 인덱스 = (자식의 인덱스) / 2
- 자식의 인덱스 찾는 방법
- 왼쪽 자식의 인덱스 = (부모의 인덱스) * 2
- 오른쪽 자식의 인덱스 = (부모의 인덱스) * 2 + 1
힙 종류
-
최대 히프(max heap)
-
부모 노드의 키 값이 자식 노드의 키 값보다 크거나 같은 완전 이진 트리
key(부모 노드) ≥ key(자식 노드)
-
-
최소 히프(min heap)
-
부모 노드의 키 값이 자식 노드의 키 값보다 작거나 같은 완전 이진 트리
key(부모 노드) ≤ key(자식 노드)
-
파이썬 heapq
heapq모듈은 이진 트리 기반의 최소 힙(min heap)을 제공한다. 최소 힙은 가장 작은 값이 인덱스 0에 위치하며, 모든 k에 대해
heap[k] <= heap[2*k+1] and heap[k] <= heap[2*k+2]
힙 생성
import heapq
heap =[]
요소 추가 heapq.heappush(heap, item)
heap은 원소를 추가할 대상 리스트이며, item는 추가할 원소를 의미한다.
heapq.heappush(heap, 1)
heapq.heappush(heap, 4)
heapq.heappush(heap, 7)
heapq.heappush(heap, 3)
# [1, 3, 7, 4]
가장 작은 값이 인덱스 0에 위치하며, 인덱스 1(=k)에 위치한 3
은 인덱스 3(=2*k+1)에 위치한 4
보다 작으므로 힙의 공식을 만족한다.
요소 삭제heapq.heappop(heap)
원소를 삭제할 대상을 넘기면, 가장 작은 원소를 삭제 후 그 값을 리턴한다.
heap.heappop(heap)
# 1
# [3, 4, 7]
삭제하지 않고 최솟값 얻기heap[0]
리스트와 같이 인덱스로 접근하면 된다. 하지만, 인덱스 1에는 두번째로 작은 원소, 인덱스 2에는 세번째로 작은 원소가 있는 것이 아니다. 따라서 n번째로 작은 원소를 얻고 싶으면 n-1번 pop한 후 인덱스0을 추출해야한다.
print(heap[0])
# 3
아래의 사진을 보면 pop하는 순간 트리가 재정렬되면서 인덱스와 값이 바뀐 것을 파악할 수 있다.
리스트를 힙으로 변환heapq.heapify(list)
heap_list = [4, 6, 1, 8, 2, 3, 9]
heapq.heapify(heap_list)
print(heap_list)
# [1, 2, 3, 8, 6, 4, 9]
최대 & 최소값 찾기heapq.nlargest(n, list, key=None)
import heapq
list = [3, 2, 1, 5, 6, 4]
print(heapq.nlargest(2, list))
# [6, 5]
print(heapq.nsmallest(3, list))
# [1, 2, 3]
# 키를 사용한 경우
data = [
{'name':'AAA', 'math':80, 'eng':60},
{'name':'BBB', 'math':90, 'eng':85},
{'name':'CCC', 'math':20, 'eng':65},
{'name':'DDD', 'math':45, 'eng':100},
{'name':'EEE', 'math':70, 'eng':25},
]
eng_king = heapq.nlargest(2, data, key=lambda x: x['eng'])
print(eng_king)
# [{'name': 'DDD', 'math': 45, 'eng': 100}, {'name': 'BBB', 'math': 90, 'eng': 85}]
힙의 시간 복잡도
함수 | 시간복잡도 |
---|---|
heappush | O(logN) |
heappop | O(logN) |
heapify | O(N) |
최대 힙(max heap)
import heapq
nums = [4, 1, 7, 3, 8, 5]
heap = []
for num in nums:
heapq.heappush(heap, (-num, num)) # (우선순위, 값)
while heap:
print(heapq.heappop(heap)[1])
# 8
# 7
# 5
# 4
# 3
# 1
이진 힙 구현
class BinaryHeap(object):
def __init__(self):
self.items = [None]
def __len__(self):
return len(self.items) - 1
# 힙 삽입 -> 시간복잡도 O(log n)
# 1. 요소를 가장 하위 레벨의 최대한 왼쪽으로 삽입(배열에서는 가장 마지막을 의미)
# 2. 부모 값과 비교해 값이 더 작은 경우 위치를 변경
# 3. 계속해서 부모 값과 비교해 위치를 변경(가장 작은 값일 경우 루트까지 올라감)
def _percolate_up(self):
i = len(self)
parent = i // 2
while parent > 0:
if self.items[i] < self.items[parents]:
self.items[parent], self.items[i] = self.items[i], self.items[parent]
i = parent
parent = i // 2
def insert(self, k):
self.items.append(k)
self._percolate_up()
# 힙 추출 -> 시간복잡도 O(log n)
# 1. 루트 추출
# 2. 가장 마지막 요소가 루트로 올라감
# 3. 자식 노드와 값을 비교해 자식 보다 크면 다운힙 연산 수행
def _percolate_down(self, idx):
left = idx * 2
right = idx * 2 + 1
smallest = idx
if left <= len(self) and self.items[left] < self.items[smallest]:
smallest = left
if right <= len(self) and self.items[right] < self.items[smallest]:
smallest = right
if smallest != idx:
self.items[idx], self.items[smallest] = self.items[smallest], self.items[idx]
self._percolate_down(smallest)
def extract(self):
extracted = self.items[1]
self.items[1] = self.items[len(self)]
self.items.pop()
self._percolate_down(1)
return extracted
이진 힙 vs 이진 탐색 트리
차이점
- 힙은 상/하 관계를 보장하며, 특히 최소 힙에서는 부모가 항상 자식보다 작다.
- 이진 탐색 트리(BST)는 좌/우 관계를 보장하며, 부모는 왼쪽의 자식보다는 크며 오른쪽 자식보다는 작거나 같다.
- BST는 탐색과 삽입 모든 O(log n)에 가능하며, 모든 값이 정렬되어야 할 때 사용
- 가장 큰 값을 추출하거나(최대 힙) 가장 작은 값을 추출하려면(최소 힙) 이진 힙을 사용해야 함 -> O(1)에 가능