Dept. of Computer Science | NTHU
MPLab Home Members Research Publications Activities
精彩畫面選取 (Highlight Extraction)

當處理大量視訊資料時,精彩畫面選取能夠幫助使用者快速瀏覽一些有趣及有意義的片段,進而有效率地找到他們期望看到的影片內容。近幾年來,運動比賽轉播越來越普及,一般大眾或運動專業工作者即可利用各式數位錄影工具將其錄製下來,以便有空的時間再觀看,並且擷取有用的資訊或是精彩的畫面。因此,運動影片(sport video)分析逐漸受到重視,特別是運動比賽本身存在一定的規則和結構,運動影片本身的架構也因此是十分規律且可預測。此外,通常在運動比賽中會存在一些特別的「精彩事件」,例如棒球比賽中的全壘打及足球比賽中的射門等,也使得運動影片比其他類型的影片(如電影、新聞轉播等等)更適用於精彩畫面選取的應用。這些特性可以讓精彩畫面選取系統更容易整合一些domain-specific特徵以及知識進入。

在精彩畫面選取中,最大的困難就是如何判斷所謂的「精彩畫面」,由於精彩畫面牽涉到許多人類感官的感受度,且受到不同的年齡、身份的影響,因此傳統的影像處理技術並無法滿足這些需求,也使得這部分的研究充滿挑戰性。大部分已提出的系統皆會假設他們所認為的精彩畫面型態,例如在某些方法中,認為精采鏡頭皆由一定的場景型態(scene type)所組成,而這些型態在時間上的轉移皆有一定的規則,因此可由HMM(Hidden Markov Model)來描述不同類型的精采片段。另外在其他方法中,亦提出精彩的片段與播報員興奮的聲音以及擊球的聲音十分相關;他們即根據播報員興奮的聲音以及擊球的聲音出現的機率偵測精彩片段。


本實驗室在「精彩畫面選取」的相關研究方向如下:
  1. 特徵的選擇

    傳統的視訊分析(video analysis)方法大部分皆利用影像資訊作為特徵,使用到的特徵包括edge、motion intensity以及dominant color。例如前人的方法中,曾利用視覺特徵,包括edge、草地顏色、鏡頭運動以及選手的高度等。他們假設可以利用這些特徵將分鏡分為許多個類別,且在精彩片段中,這些類別在時間上的轉移皆有一定的規則。

    單獨使用視覺特徵有時並無法精確定義出真正令觀眾感到「興奮」的片段,有部分過去的研究認為影片中的聲音更具有代表精彩片段的意義,例如在運動比賽中觀眾的歡呼聲等,能夠表示在某一個時間發生特別不一樣的事件;但是相對的聲音訊號也特別容易受到現場的一些雜訊干擾。

    單獨使用聲音或是視覺特徵,都會有其限制所在,因此,最近許多提出的方法皆傾向於將兩者合併使用,例如包括聲音音量(audio power)以及motion intensity。

    我們著重於研究使用多種多媒體特徵的方式,在判斷精采片段時,同時利用到聲音以及影像的資訊,而非以一種特徵為主,再以另一種加以修正,以更精確的擷取精彩畫面。

  2. 精彩畫面選取方法

    隨著精彩畫面定義以及應用不同,也有許多不同的判斷方法,例如當播報員興奮的聲音以及擊球的聲音出現的機率超過一定值時,即認為那是精彩片段發生處;某些參考文獻以聲音分類(audio classification)為基礎,將影片中每一小段聲音作分類,再找出鼓掌以及歡呼聲片段的長度,當鼓掌或是歡呼片段的長度超過一定標準時,系統即認為那些片段為精彩片段。

    另外一種方法則是考慮精彩片段中,分鏡或是畫面在時間上轉移的特性,過去有些方法假設精采鏡頭的場景型態在時間上的轉移皆有一定的規則,因此可由HMM(Hidden Markov Model)來描述;亦有其他人利用偵測慢動作重播鏡頭的方法,以達到精彩畫面選取的目的。

    我們的研究將著重在考慮精彩片段中,影像以及聲音型態在時間上的變化,例如使用HMM或是Markov Chain來描述等,並且將會以更廣義的精彩片段為目標,討論應用於多種運動比賽的精彩片段選取方法。


    圖1. 精彩畫面選取之系統流程圖


    圖2. 由棒球影片所擷取之精彩畫面