以下介紹來自OpenCV的官方文獻,這份文章是我在閱讀完畢後使用中文整理的筆記。
Goal
- 了解Optical Flow的概念,以及如何使用Lucas-Kanade method來計算它
- 使用
cv.calcOpticalFlowPyrLK()
來追蹤影片的特徵點 - 使用
cv.calcOpticalFlowFarneback()
來計算稠密光流
Optical Flow
光流(Optical Flow),是透過物體或照相機的移動而造成連續兩幀之間圖像的移動過程,他是一個二維的向量場(vector field),其中每一個vector都是從前一幀到下一幀的移動向量。
現在考慮下圖:
圖中顯示了一顆球在連續五幀中的移動過程,白色箭頭為他的移動向量。
光流可以被應用在以下領域:
- Structure from Motion
- Video Compression
- Video Stabilization
但光流法的限制其實也蠻強的,要使用他必須滿足下列的假設條件:
- 連續幀之間物體的像素強度(pixel intensities)是不變的
- 相鄰的像素之間具有相似的運動
- 這點其實蠻直觀的,除非在物體邊界上,不然同一個物體的相鄰pixel運動方向應該是一致的
假設,在第t幀某個pixel我們表示為$I(x, y, t)$,在t+1幀時它移動了$(dx, dy)$,由於像素點仍然是相同的那個點,我們可以這樣表示:
再來將右項透過泰勒展開,假設該移動很小,我們會得到(不考慮常數項)
移項後再同除與$dt$
這個式子稱之Optical Flow equation,其中
- $\frac{\partial I}{\partial x}, \frac{\partial I}{\partial y}, \frac{\partial I}{\partial t}$分別是該pixel對於x, y以及時間的偏導,這都是已知的(只要給連續的兩幀就可以計算出來)
- 兩個未知數: $\frac{\partial x}{\partial t}, \frac{\partial y}{\partial t}$ ,也就是該pixel對於x, y方向的瞬時速度
所以現在有兩個未知數,但只有一個方程式。雖然我的高中數學大部分在學測考完的時候還給老師了,不過我還記得這樣是解不開的呢!
我們需要更多的方程式來求解,為此有很多種方法被提出來解決這個問題,而其中一種就是Lucas-Kanade
Lucas-Kanade method
還記得光流的前提假設: 相鄰的像素之間具有相似的運動,所以我們可以透過相鄰的點來一起計算相同的兩個未知數。Lucas-Kanade對於每一個pixel都取附近的3x3 patch,如此我們就有九個方程式求解兩個未知數,可以使用Least Square Method解出來。
但這樣只能處理小動作,遇到大幅的移動就失敗了,所以還結合了金字塔方法(pyramids),使得在大尺度下大動作可以被視為小動作,小動作將會被移除。透過金字塔方法可以同時考慮到大尺度和小尺度的移動。
這邊注意到使用LS的時候需要確保矩陣是可逆的,如果不可逆就解不出來了。但很巧的在角點(corner)上的矩陣大多可逆(其實不巧,我還沒研究這邊QQ),所以corner是一個很好做光流法的特徵點。
Lucas-Kanade Optical Flow in OpenCV
官網中簡單的範例程式碼如下0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47import numpy as np
import cv2 as cv
import argparse
parser = argparse.ArgumentParser(description='This sample demonstrates Lucas-Kanade Optical Flow calculation. \
The example file can be downloaded from: \
https://www.bogotobogo.com/python/OpenCV_Python/images/mean_shift_tracking/slow_traffic_small.mp4')
parser.add_argument('image', type=str, help='path to image file')
args = parser.parse_args()
cap = cv.VideoCapture(args.image)
# params for ShiTomasi corner detection
feature_params = dict( maxCorners = 100,
qualityLevel = 0.3,
minDistance = 7,
blockSize = 7 )
# Parameters for lucas kanade optical flow
lk_params = dict( winSize = (15,15),
maxLevel = 2,
criteria = (cv.TERM_CRITERIA_EPS | cv.TERM_CRITERIA_COUNT, 10, 0.03))
# Create some random colors
color = np.random.randint(0,255,(100,3))
# Take first frame and find corners in it
ret, old_frame = cap.read()
old_gray = cv.cvtColor(old_frame, cv.COLOR_BGR2GRAY)
p0 = cv.goodFeaturesToTrack(old_gray, mask = None, **feature_params)
# Create a mask image for drawing purposes
mask = np.zeros_like(old_frame)
while(1):
ret,frame = cap.read()
frame_gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY)
# calculate optical flow
p1, st, err = cv.calcOpticalFlowPyrLK(old_gray, frame_gray, p0, None, **lk_params)
# Select good points
good_new = p1[st==1]
good_old = p0[st==1]
# draw the tracks
for i,(new,old) in enumerate(zip(good_new, good_old)):
a,b = new.ravel()
c,d = old.ravel()
mask = cv.line(mask, (a,b),(c,d), color[i].tolist(), 2)
frame = cv.circle(frame,(a,b),5,color[i].tolist(),-1)
img = cv.add(frame,mask)
cv.imshow('frame',img)
k = cv.waitKey(30) & 0xff
if k == 27:
break
# Now update the previous frame and previous points
old_gray = frame_gray.copy()
p0 = good_new.reshape(-1,1,2)
針對裡面的幾個重點來說:
1.cv.VideoCapture()
來讀取影片,一開始先讀兩幀才能拿來計算前一幀跟後一幀的關係
cv.goodFeaturesToTrack()
來找到要追蹤的特徵點,也就是角點- 每讀取一幀,就和上一幀的特徵點透過LK method
cv.calcOpticalFlowPyrLK()
來算出新特徵點的位置,然後繪圖
Dense Optical Flow in OpenCV
LK方法適用於計算稀疏光流,而要計算稠密光流(也就是對於每一個pixel都計算他的光流)的時候就會使用Gunner Farneback’s algorithm (which is explained in “Two-Frame Motion Estimation Based on Polynomial Expansion” by Gunner Farneback in 2003),
這是一個基於多項式的求解方法,對於x, y將它轉換成一個二項式,然後去座位移估計,在文獻中並沒有做太多的介紹,有興趣的可以參考光流法:Farneback
OpenCV文檔提供的範例code如下:
0 | import numpy as np |
- 一樣先連續讀取兩幀,然後呼叫
cv.calcOpticalFlowFarneback()
- 基於HSV色彩空間來配色