Dept. of Computer Science | NTHU
MPLab Home Members Research Publications Activities
內涵式影像檢索 (Content-based Image Retrieval)

隨著儲存媒介之容量與日俱增,以及數位攝影器材的普及,網際網路上存在著數量龐大的數位影像,如何有效地檢索在資料庫的數位影像,已是多媒體研究的主流之一。傳統的方法是以人工對每張影像指定數個關鍵字,讓使用者鍵入關鍵字來搜尋影像。然而,此種傳統的文字搜尋方法,不僅在註釋關鍵字方面耗費許多的成本,且影像中包含許多紋理 (texture)、形狀或物件空間關係等不易以關鍵字描述的特性。有鑑於此,近年來影像檢索 (image retrieval) 的研究領域,多集中在探討以內涵資訊為基礎 (content-based) 的影像檢索方法。運用影像處理的相關技巧,電腦可以自動從每張影像中擷取許多特徵 (feature),如顏色的分佈、紋理的變化等,而影像搜尋時,則是尋找資庫中具有類似特徵值的影像。此種內涵式影像檢索方法,不僅可以擷取出許多難以用文字描述的影像特性,而且可以讓電腦自動化去計算特徵值,省去大量的人力成本。

由於影像的顏色與材質分佈,不易以文字描述,現今的查詢方式多要求使用者提供一張範例影像 (example query) 進行檢索。即使如此,由於不同使用者對相同範例影像的認知不同,查詢的結果往往不如人意,因此,現行的影像檢索方法多利用相關回饋 (relevance feedback) 技術,根據使用者回饋的影像,更新範例影像所提供的資訊以及修正影像比對方式,以使查詢結果更符合使用者的需求。 歸納內涵式影像檢索方法,其中不外乎特徵擷取、影像比對與相關回饋三大步驟。以下我們針對這三個步驟一一說明:

  1. 特徵擷取 (feature extraction)

    特徵擷取的方法,可粗分為全域 (global) 與局部性 (local) 的特徵擷取。全域的方法,係指直接自整張影像計算某些特徵值或分佈,例如:顏色的分佈或紋理的參數等,然而此種方法的缺點在於無法捕捉局部的變化。舉例而言,兩張顏色分佈很像的影像,可能其中物體的空間相對位置差距很大,使用全域特徵並無法將這種差距表現出來。因此近來的影像檢索研究,多以將影像分成局部區域,並以其局部區域中的特徵記錄影像中的局部變化。例如:將影像切成許多不重疊的矩形區塊,或是運用影像切割 (image segmentation) 技術 ,將影像切割為許多具有相近特徵的不規則的區塊 (region),再自每個區塊中計算低階影像特徵值。當影像的局部特徵計算出來後,這張影像除了可以各個區塊特徵表示外,這些區塊間的空間相對位置也成為另一個非常重要的影像特性。

  2. 影像比對 (Image matching)

    當所有影像的特徵值擷取出來後,常見的檢索方法,是比對範例影像與資料庫中每張影像間特徵值的差異。然而,在區塊表示法下,問題將變得很複雜。首先,每張影像經切割 (segmentation) 後,所得到的區塊不但數目不同、且呈不規則形狀。當比對兩張影像時,相當於比對兩群區塊之間的差異程度;因此,兩群區塊之間的對應關係,必須先被決定出來。此外,由於影像切割結果往往不盡理想,相同的物體在不同的影像中可能被切割成不同大小的區塊,在區塊對應中也必須考慮此種因素。更甚者,即使我們找到了影像間的區塊關係後,並非所有找到的區塊對應都有意義,例如:很不相像的影像間並無明顯的對應性,或是影像中部份區塊有對應關係但部份區塊無對應關係等。因此,區塊間對應關係的估測,是目前影像比對中需深入探討的問題。

  3. 相關回饋 (Relevance feedback)

    當使用者給予範例影像後,系統即會依據擷取的特徵與定義的比對方式,計算與資料庫中每張影像的相似程度,並依此排列結果。不幸的是,自影像擷取的特徵,並無法反映許多語意上的意義;除此之外,每張影像各特徵所佔的權重,應該視使用者搜尋的需求而動態調整。由於第一次搜尋的結果,往往不盡人意,是故在影像檢索的研究領域,引入相關回饋的機制。使用者可以自搜尋的結果中,勾選哪些影像是與目標接近的,並回饋給系統;系統再根據這些回饋的影像,動態調整特徵的權重、甚至是比對的方式,以使搜尋的結果更接近使用者的需求。然而,當影像採取區塊式表示法時,相關回饋的問題也變得更加複雜,對系統而言,回饋的不僅僅是影像,而是一群區塊,且同一張影像中,區塊間亦有空間相對的關係存在。如何自回饋的影像區塊中,學習到能有效改善搜尋結果的參數,也需要深入研究的主題。


根據上述討論,我們長期以來研究的方向有二:

  1. 區塊式影像比對 (Region-based image matching)

    目前常見的影像表示法,是先將影像透過切割 (segmentation) 的方式得到一群區塊,再由各區塊擷取特徵值。於是,影像便可表示為一群區塊的集合,而為了測量兩張影像間的相似度,就需要比對兩兩區塊間的距離。然而,直接以暴力法比對所有可能的區塊配對情況並加總,其結果往往無法真實反映出影像間的相似性。因此,我們需要在計算影像相似度之前,先決定兩張影像區塊間的對應關係,此對應關係決定了哪個區塊該跟哪個區塊比較相似度。當兩張影像的區塊對應關係建立時,接下來的課題,便是如何利用此對應關係來測量兩張影像的相似程度。我們可以僅就對應關係來加總每對區塊的特徵相似值,亦可多考慮鄰近區塊對應的資訊。

  2. 區塊式相關回饋 (Region-based relevance feedback)

    相關回饋的主要目的,是藉由回饋的影像,更新初始查詢與比對的方法,是故如何更新查詢影像、與調整計算相似度時各特徵的參數,為一般研究所討論的主題。然而在區塊表示法中,不僅要決定區塊間的對應關係,同時各區塊的重要性亦是一重要的參數。例如可以藉由觀察兩張回饋影像,具有相同前景但不同背景,判斷出前景區塊的重要性應提高。根據回饋影像 (feedback image) 的區塊關係進行相關回饋的探討,是非常困難的研究題目,亦少有文獻針對此題目進行研究。

圖1.為我們之前的研究成果示意圖,相關論文已被 IEEE Transactions on Image Processing 接受。在該方法中,我們以分群 (clustering) 技術找出回饋影像間的區塊對應關係,根據各群區塊的差異性更新學習參數,藉以修正不同區塊與不同特徵的重要性。
圖1. 以區塊分群為基礎之影像檢索示意圖