老头天天吃我奶躁我的视频_中文精品久久久久人妻不卡_波多野结衣系列无码午夜_亚洲第一综合天堂另类专_欧美丰满少妇XXXXX_日韩人妻无码精品专区

DAV首頁
數(shù)字音視工程網(wǎng)

微信公眾號

數(shù)字音視工程網(wǎng)

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

??低暎汉A咳四槇D片檢索技術

來源:數(shù)字音視工程網(wǎng)        編輯:追憶    2014-11-03 15:38:58     加入收藏    咨詢

咨詢
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗證碼:
不能為空 驗證碼錯誤
確定

  傳統(tǒng)針對海量圖片的檢索系統(tǒng)中,由于采用單節(jié)點架構,面對海量圖片數(shù)據(jù)檢索時存在檢索速度慢、并發(fā)性差等諸多問題。本文提出了一種海量圖片檢索方法,將...

  傳統(tǒng)針對海量圖片的檢索系統(tǒng)中,由于采用單節(jié)點架構,面對海量圖片數(shù)據(jù)檢索時存在檢索速度慢、并發(fā)性差等諸多問題。本文提出了一種海量圖片檢索方法,將圖片檢索技術與并行計算框架相結合,在分布式文件系統(tǒng)里存儲人臉圖像模型,計算節(jié)點采用分布式存儲調(diào)度算法,增強對多數(shù)據(jù)的并發(fā)處理能力,同時對計算后的數(shù)據(jù)進行壓縮處理。首先采用??低?/a>自主開發(fā)的人臉識別算法從人臉圖片里提取出人臉特征形成模型數(shù)據(jù),然后采用多線程運算方式與海量圖片庫進行模型的逐一對比,采用統(tǒng)一排序節(jié)點接收各并行計算函數(shù)任務的計算結果,并按相似度大小進行排序,最后根據(jù)排序結果找到最優(yōu)檢索結果。實驗結果表明,該方法在處理大數(shù)據(jù)圖像檢索時,與單節(jié)點檢索系統(tǒng)相比,能夠有效降低檢索時間,提高檢索速度。同時,由于存儲在分布式文件系統(tǒng)內(nèi),能夠保證人臉圖片文件的高冗余性,避免丟失數(shù)據(jù)。

  海量人臉圖片檢索技術簡介

  圖片檢索是直接根據(jù)初始查詢圖片的視覺特征,在海量圖片庫找出與之相似的圖像,類似的應用叫做“以圖搜圖”。利用圖片自身去檢索圖片,快速有效地提高了圖片檢索的性能,但在圖片檢索的過程中需要消耗大量的機器硬件資源,尤其是CPU資源。隨著計算機科學技術和數(shù)字圖像采集技術的迅速發(fā)展以及互聯(lián)網(wǎng)的普及應用,每天從各行各業(yè)都產(chǎn)生出大量的多媒體數(shù)據(jù),這些數(shù)據(jù)大部分是以圖片和視頻等形式表現(xiàn)的,傳統(tǒng)基于單節(jié)點架構的圖片檢索系統(tǒng)存在檢索速度慢、并發(fā)性差,實時性和穩(wěn)定性無法保障等諸多問題,不能滿足人們對于檢索性能的要求。因此一種基于內(nèi)容的實現(xiàn)圖片快速檢索、并行處理、及時響應方法成為了研究熱點。云計算可以將任務分配到各個工作節(jié)點共同完成任務,具有分布式、并行處理能力,為海量人臉圖片檢索提供了一種新的研究思路。

  ??低暡捎梅植际郊軜嫎嫿ǖ暮A繄D片檢索系統(tǒng)依賴于自主開發(fā)的分布式計算平臺。該平臺擁有高容錯性、高可靠性、高效性、可擴展的軟件體系,適合將各種資源、數(shù)據(jù)部署在廉價的機器上,進行分布式存儲和分布式管理,讓用戶輕松支持上千個節(jié)點以及PB級數(shù)據(jù)量的運算。

  系統(tǒng)總體設計

  本文所介紹的系統(tǒng)的設計目標是實現(xiàn)海量、異構、分布的圖片資源的快速檢索和及時響應。系統(tǒng)采用分布式構架,由上而下分別由表現(xiàn)層、業(yè)務邏輯層以及數(shù)據(jù)及數(shù)據(jù)處理層組成,整體框架如下圖所示。

  圖1 整體架構圖

  前端用戶通過Internet獲取服務,用來上傳示例圖片和接收Web服務器的處理結果。在服務器端,業(yè)務邏輯層主要根據(jù)用戶檢索請求執(zhí)行相應業(yè)務處理。數(shù)據(jù)及數(shù)據(jù)處理層包括分布式文件系統(tǒng)的存儲和管理模塊,海量圖片數(shù)據(jù)導入、請求模塊。數(shù)據(jù)處理層是系統(tǒng)最核心的部分,負責人臉圖片數(shù)據(jù)的分塊、人臉特征的提取、匹配以及結果的返回等。

  本系統(tǒng)所采用的分布式文件系統(tǒng)采用Master/Slave這樣的管理者/工作者模式的架構,即一個管理者和多個工作者方式。當用戶通過客戶端發(fā)出請求對文件進行讀寫操作時,集群通過管理者和工作者的交互實現(xiàn)讀寫操作。管理者是整個分布式文件系統(tǒng)的核心,用于管理數(shù)據(jù)節(jié)點和客戶端對文件的訪問,管理文件系統(tǒng)的命名空間,維護整個文件系統(tǒng)的數(shù)據(jù)結構,記錄和保存系統(tǒng)中所有的文件和元數(shù)據(jù)。這些信息以備份文件的形式保存在管理者節(jié)點計算機上,該管理者計算機又有多臺備份節(jié)點,一旦管理者節(jié)點計算機出現(xiàn)異常,備份計算機立即將所有的元數(shù)據(jù)信息讀入內(nèi)存,承擔起管理者角色。當集群中的某一節(jié)點數(shù)據(jù)丟失造成任務失敗后,管理者節(jié)點會自動重新部署計算任務。工作者是文件系統(tǒng)的工作節(jié)點,根絕需要負責存儲或檢索數(shù)據(jù)庫,各數(shù)據(jù)快的存儲位置隨系統(tǒng)的調(diào)整而改變。管理者節(jié)點會自動搜集分布式文件系統(tǒng)內(nèi)的目錄信息、磁盤空間信息、備份因子、空閑的節(jié)點數(shù)目等信息。

  對于大數(shù)據(jù)量的計算,通常采用的處理手法就是并行計算。首先要將一個邏輯上完整的大任務分解城若干個子任務,系統(tǒng)根據(jù)任務的信息采用適當?shù)牟呗园巡煌娜蝿辗峙鋷Р煌Y源節(jié)點上去運行,當所有子任務處理結束,則完成整個大任務的一次處理,最后將處理結果傳給用戶。

  系統(tǒng)實現(xiàn)關鍵技術

  海量人臉圖片檢索系統(tǒng)處理的數(shù)據(jù)可以支持PB級以上的數(shù)據(jù),這是傳統(tǒng)的單節(jié)點計算無法達到的。通過對較大的圖片進行分塊處理,采用分布式存儲調(diào)度算法,將系統(tǒng)提升到支持多數(shù)據(jù)的并發(fā)處理,同時采用壓縮存儲對多數(shù)據(jù)進行處理。

  本系統(tǒng)在處理大塊人臉圖片文件時采用的是分塊存儲的方法,即將一大塊文件分塊處理成若干塊小的數(shù)據(jù)分塊,并將這些屬于同一大文件的數(shù)據(jù)分塊以一個文件的形式存儲,利用分布式存儲調(diào)度算法,將分塊后的所有數(shù)據(jù)存儲在不同的存儲節(jié)點上,并實施相應的備份機制。圖片存儲是人臉圖片檢索的基礎,是一個數(shù)據(jù)密集型計算過程。經(jīng)過算法建模生成的模型值最終被存儲在基于列式的分布式數(shù)據(jù)庫中,當數(shù)據(jù)庫內(nèi)的數(shù)據(jù)集非常大時,掃描搜索整個表要花費比較長的時間,為了減少檢索圖片的時間和提高檢索效率,可以將所有的數(shù)據(jù)讀入內(nèi)存,這樣可以在檢索時減少磁盤的I/O操作,進而提高檢索速度。

  并行計算框架參照MPI計算模型,實現(xiàn)了并行計算函數(shù)和統(tǒng)一排序函數(shù)。并行計算函數(shù)的功能是負責將數(shù)據(jù)分散處理,統(tǒng)一排序函數(shù)的功能是負責將處理后的中間結果進行聚集。在整個并行計算過程中,通過調(diào)用一個并行計算函數(shù)方法對每一個鍵值對進行處理,并將處理后的中間結果寫入到內(nèi)存,最后保存到本地文件系統(tǒng)里。統(tǒng)一排序函數(shù)實現(xiàn)了對所有節(jié)點處理信息的匯總、排序、輸出。本系統(tǒng)采用的并行計算框架負責在圖片檢索過程中對圖片匹配及人臉相似度的計算,人臉相似度計算依賴??低曌灾鏖_發(fā)的人臉識別算法。通過調(diào)用算法庫匹配模型值,將匹配處理結果按照相似度從高到低的順序返回給用戶。通過算法庫獲取圖片中出現(xiàn)的人臉圖片并對該人臉進行建模,然后由工作者節(jié)點將該模型傳送至各任務計算節(jié)點進行運行,接著每個節(jié)點分別返回計算結果并匯總到某一節(jié)點,最后由該計算節(jié)點匯總數(shù)據(jù)后按照相似度從高到低的順序返回用戶設定的若干條匹配人臉圖片及相關信息。  實驗結果及分析

  本系統(tǒng)搭建了一個實驗集群,該實驗集群由四臺普通的2U服務器組成,1個Master節(jié)點,3個Slave節(jié)點。每臺機器的配置如下:CPU Intel E5,內(nèi)存DDR3 32GB,以太網(wǎng)卡100Mb/s,操作系統(tǒng)是Centos 6.2。

  為了測試集群系統(tǒng)的性能,我們使用了不同數(shù)據(jù)級別的人臉圖片數(shù)據(jù)對系統(tǒng)進行測試,實驗結果如下圖所示。

  圖2 集群測試數(shù)據(jù)圖

  測試數(shù)據(jù)樣本數(shù)量級分別為10萬、50萬、100萬、500萬、1000萬、5000萬、1億、2億,這8個級別的人臉圖片、基本信息及模型數(shù)據(jù)。

  4臺機器的總內(nèi)存數(shù)量是128GB,其中操作系統(tǒng)需要占用大約4GB/臺,Master節(jié)點上分布式框架服務需要占用4GB,Slave節(jié)點上分布式框架協(xié)同管理服務需要占用2GB/臺,4臺機器剩余的可用內(nèi)存一共有102GB,每張人臉圖片的大小為10K,模型值為6K,其余人臉描述信息是4K,一共每條人臉信息需要20K,加上三份備份原則,所以102GB一共可以讀取800萬數(shù)據(jù)到內(nèi)存。從上面數(shù)據(jù)圖可以看出,當所有數(shù)據(jù)都在內(nèi)存中時讀取速度非常的快,每次檢索都能控制在3秒鐘以內(nèi)。隨著數(shù)據(jù)量的增大,到1000萬時檢索耗時上升到10秒左右,原因是需要從分布式數(shù)據(jù)庫里讀取數(shù)據(jù)用于檢索,這樣增加了磁盤I/O消耗。當數(shù)據(jù)量達到2億的頂峰時,檢索耗時也達到了頂峰的2分鐘,雖然看起來耗時增長很多,但是與傳統(tǒng)架構相比還是具有相當大的速度優(yōu)勢。

  從實驗可以得出,當集群內(nèi)存足夠大時,可以把所有的數(shù)據(jù)讀入內(nèi)存,這樣可以保證快速檢索、快速結果呈現(xiàn),同時也能做到數(shù)據(jù)的動態(tài)容災備份。

  本文總結

  本文介紹的海量人臉圖片檢索系統(tǒng)將大數(shù)據(jù)集圖像檢索任務進行分解,通過與分布式文件系統(tǒng)和并行計算框架相結合的應用模式,實現(xiàn)各節(jié)點協(xié)同完成圖片檢索任務。通過基于若干個不同數(shù)量級別的圖片數(shù)據(jù)測試,將實驗結果進行對比驗證,表明隨著數(shù)據(jù)量的快速增長本系統(tǒng)不會受到太大的性能沖擊,沒有出現(xiàn)單節(jié)點擊器的速度慢、并發(fā)性差等問題,有效提高了圖片檢索速度、并發(fā)性以及處理海量數(shù)據(jù)的能力。

  未來的工作重點將放在如何快速地從海量視頻文件中搜索出指定的人臉圖片,并對搜索出來的圖片進行相關性數(shù)據(jù)挖掘,通過對海量數(shù)據(jù)分析為公安機關等特定部門提供更豐富的技術手段,減少人工過濾視頻的苦惱。

免責聲明:本文來源于網(wǎng)絡收集,本文僅代表作者個人觀點,本站不作任何保證和承諾,若有任何疑問,請與本文作者聯(lián)系或有侵權行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉載,轉載請注明來源)
掃一掃關注數(shù)字音視工程網(wǎng)公眾號

相關閱讀related

評論comment

 
驗證碼:
您還能輸入500