計(jì)算機(jī)視覺(jué)分析技術(shù)范文

時(shí)間:2023-12-18 17:58:00

導(dǎo)語(yǔ):如何才能寫(xiě)好一篇計(jì)算機(jī)視覺(jué)分析技術(shù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

計(jì)算機(jī)視覺(jué)分析技術(shù)

篇1

關(guān)鍵詞:分布式拒絕服務(wù)攻擊;網(wǎng)絡(luò)安全;入侵檢測(cè)

收稿日期:2011-07-04

作者簡(jiǎn)介:徐強(qiáng)(1987―),男,湖北武漢人,武漢紡織大學(xué)環(huán)境學(xué)院建筑環(huán)境與設(shè)備工程學(xué)生。

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-9944(2011)07-0230-02

1引言

Internet/Intranet的迅速發(fā)展,實(shí)現(xiàn)了資源共享和快速通信,但網(wǎng)絡(luò)的安全問(wèn)題也變得日益突出。網(wǎng)絡(luò)安全的最大威脅就是黑客的攻擊。分布式拒絕服務(wù)攻擊是一種目前黑客經(jīng)常使用且難以防范的攻擊手段。其英文全稱是Distribute Denial of Service(DDoS)。它的目的就是拒絕服務(wù)訪問(wèn),破壞組織的正常運(yùn)行,最終會(huì)使部分Internet連接和網(wǎng)絡(luò)系統(tǒng)失效[1]。

從20世紀(jì)90年代到現(xiàn)在,拒絕服務(wù)攻擊外部請(qǐng)求,或無(wú)法及時(shí)回應(yīng)請(qǐng)求,使得很多因特網(wǎng)服務(wù)提供商無(wú)法得到響應(yīng),造成“拒絕服務(wù)”,帶來(lái)了巨大的麻煩和經(jīng)濟(jì)損失,如2003年8月發(fā)生的著名的微軟公司windowsupdate.cam更新網(wǎng)站的拒絕服服務(wù)攻擊。2006年2月發(fā)生的一系列大規(guī)模攻擊事件:在短短幾天,包括Yahoo,,CNN等國(guó)際知名網(wǎng)站先后遭受攻擊,導(dǎo)致這些網(wǎng)站長(zhǎng)時(shí)間中斷服務(wù),其經(jīng)濟(jì)損失高達(dá)幾百萬(wàn)美元[2]。

2分布式拒絕服務(wù)攻擊的技術(shù)分析

基于傳統(tǒng)的拒絕服務(wù)攻擊(Denial of Service,DoS)攻擊,產(chǎn)生新一類攻擊方式是分布式拒絕服務(wù)攻擊(Distributed Denial of Service,DDoS)手段。其產(chǎn)生背景是,隨著計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)的發(fā)展,計(jì)算機(jī)的處理能力迅速增長(zhǎng),內(nèi)存大大增加,同時(shí)也出現(xiàn)了千兆級(jí)別的網(wǎng)絡(luò),這使得DoS攻擊的困難程度加大[3]。這是因?yàn)橐酝鶈我坏腄oS攻擊的特點(diǎn)是,一般是采用一對(duì)一方式,通過(guò)欺騙偽裝及其它手段以使得提供服務(wù)資源的主機(jī)出現(xiàn)錯(cuò)誤響應(yīng)或資源耗盡從而使其停止提供服務(wù)或資源訪問(wèn)的一種攻擊手段。當(dāng)攻擊目標(biāo)CPU速度低、內(nèi)存小或者網(wǎng)絡(luò)帶寬小等等情況下,它的效果是明顯的。被攻擊的高性能主機(jī)對(duì)惡意攻擊包的“消化能力”加強(qiáng)了不少,例如攻擊軟件每秒鐘可以發(fā)送3 000個(gè)攻擊包,但被攻擊主機(jī)與網(wǎng)絡(luò)帶寬每秒鐘可以處理10 000個(gè)攻擊包,這樣一來(lái)攻擊就不會(huì)產(chǎn)生什么效果。這時(shí)分布式的拒絕服務(wù)攻擊手段DDoS就應(yīng)運(yùn)而生了。

DDoS采用了一種比較特別的3層客戶機(jī)/服務(wù)器(C/S)體系結(jié)構(gòu),從許多分布的主機(jī)同時(shí)攻擊一個(gè)目標(biāo),數(shù)量非常大以至于服務(wù)器無(wú)法為合法用戶提供正常服務(wù)[2]。分布式拒絕服務(wù)攻擊從本質(zhì)上說(shuō)與DOS攻擊使用的技術(shù)方法類似,但由于其在形式上具有分布式的特點(diǎn),因此更具有危害性。DDoS一般使用攻擊工具進(jìn)行,常用的工具有:Trinoo,TFNT,FN2K等。一般DDoS攻擊的流程包括以下幾點(diǎn)。

(1)黑客首先需要控制3種類型的計(jì)算機(jī)。攻擊者即黑客本人的主機(jī),黑客通過(guò)它實(shí)施DDoS的指令??刂茩C(jī)即直接受黑客控制的主機(jī),但一般不屬黑客所有,數(shù)目通常為3~4臺(tái),并且在這些計(jì)算機(jī)上安裝上特定的主控制軟件(稱為master)。這類主機(jī)將忠實(shí)地執(zhí)行黑客發(fā)出的命令。肉雞即它們是被黑客控制但一般并不為黑客所擁有的計(jì)算機(jī)群。這樣的計(jì)算機(jī)數(shù)以百計(jì),它們是攻擊的先頭部隊(duì)。黑客在這些計(jì)算機(jī)上安裝了守護(hù)程序(稱為daemon),運(yùn)行并產(chǎn)生DDoS攻擊代碼。

(2)DDoS操作過(guò)程。攻擊過(guò)程如圖1所示,在組織攻擊之前,黑客首先在互聯(lián)網(wǎng)上找到并完全獲得某些安全性脆弱的計(jì)算機(jī)的控制權(quán)限,如ROOT權(quán)限,并讓這些受到侵害的主機(jī)充當(dāng)黑客的Master和Daemon。接著,黑客在這些稱為Master的受控計(jì)算機(jī)上安裝主控制軟件;在稱為Daemon的計(jì)算機(jī)上安裝守護(hù)程序。Daemon主機(jī)的守護(hù)程序在指定端口上監(jiān)聽(tīng)來(lái)自Master主機(jī)發(fā)送的攻擊命令,而Master主機(jī)接受從黑客計(jì)算機(jī)發(fā)送的指令[3]。最后,黑客只需向Master主機(jī)發(fā)出命令就可以發(fā)動(dòng)大規(guī)模的DDoS攻擊。攻擊發(fā)動(dòng)時(shí),Target主機(jī)會(huì)受到來(lái)自許多機(jī)器上大量等待響應(yīng)的信息,從而使得來(lái)自于正常用戶的請(qǐng)求不能得到及時(shí)相應(yīng),這時(shí)就出現(xiàn)了DDoS攻擊(圖1)。

3應(yīng)對(duì)拒絕服務(wù)攻擊的技術(shù)與策略

應(yīng)對(duì)拒絕服務(wù)攻擊需要做好基礎(chǔ)的防御措施,從計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)設(shè)備等方面運(yùn)用技術(shù)手段來(lái)檢測(cè)和預(yù)防攻擊的發(fā)生,但更重要的是要制定和實(shí)施完善的安全防御策略,提高計(jì)算機(jī)和網(wǎng)絡(luò)系統(tǒng)的整體安全性,將安全風(fēng)險(xiǎn)降到最低[4]。

首先從技術(shù)角度,當(dāng)前沒(méi)有很好的徹底解決DDoS攻擊的方案。國(guó)外一些專家甚至斷言,除非改變TCP/IP內(nèi)核,否則沒(méi)有辦法解決DDoS攻擊問(wèn)題。但只要加強(qiáng)安全防范意識(shí),提高網(wǎng)絡(luò)系統(tǒng)的安全性,仍可以有效地防御DDoS攻擊[4]。

3.1設(shè)置防火墻

防火墻是抵御DDoS攻擊的有力工具,位于內(nèi)部網(wǎng)絡(luò)與外部網(wǎng)絡(luò)之間,具有網(wǎng)絡(luò)監(jiān)視、數(shù)據(jù)過(guò)濾、部署、NAT服務(wù)及審記等功能。隨著防火墻技術(shù)的不斷發(fā)展,防火墻的分類和功能也在不斷細(xì)化,但總的來(lái)說(shuō),可以分為包過(guò)濾防火墻,應(yīng)用級(jí)防火墻。包過(guò)濾防火墻又叫網(wǎng)絡(luò)級(jí)防火墻,因?yàn)樗枪ぷ髟诰W(wǎng)絡(luò)層。它一般是通過(guò)檢查單個(gè)包的地址、協(xié)議、端口等信息來(lái)決定是否允許此數(shù)據(jù)包通過(guò)。它可以很好地解決Ping Flood這樣的攻擊。

3.2調(diào)整主機(jī)的設(shè)置

將所有公開(kāi)服務(wù)器與DMZ隔離;使用SRP(Secure Remote Password安全遠(yuǎn)程口令)代替SSH;限制只有內(nèi)部地址才能訪問(wèn)支持SRP的telnet和FTP守護(hù)程序。如果必須為公開(kāi)訪問(wèn)運(yùn)行常規(guī)的FTP(比如匿名FTP),可以的在另一個(gè)端口運(yùn)行SRPFTP;設(shè)置可信任的路徑;使用Trip write和相同作用的軟件來(lái)幫助發(fā)覺(jué)對(duì)重要文件的修改。

3.3路由器設(shè)置

應(yīng)用包過(guò)濾的技術(shù),主要是過(guò)濾對(duì)外開(kāi)放的端口。這些手段主要是防止假冒地址的攻擊,使得外部機(jī)器無(wú)法假冒內(nèi)部機(jī)器的地址來(lái)對(duì)內(nèi)部機(jī)器發(fā)動(dòng)攻擊。

4結(jié)語(yǔ)

對(duì)分布式拒絕服務(wù)攻擊(DDoS)的工作原理、各種手段進(jìn)行了深入的分析,并給出了檢測(cè)及防御的一些措施。隨著電子商業(yè)的發(fā)展,DDoS攻擊將對(duì)我們的電子化社會(huì)產(chǎn)生更大的沖擊。新的攻擊方法必然還會(huì)出現(xiàn),危害可能更大,需要我們進(jìn)一步地研究。應(yīng)對(duì)DDoS攻擊將是一個(gè)系統(tǒng)化、長(zhǎng)期的安全問(wèn)題。

參考文獻(xiàn):

[1] Mc Clure,Secmbray Kurtz.網(wǎng)絡(luò)安全機(jī)密與解決方案[M].北京:清華大學(xué)出版社,2000.

[2] 于冷,陳波,宋如順.兩種典型拒絕服務(wù)攻擊手法的分析與對(duì)策[J].計(jì)算機(jī)應(yīng)用研究,2001(6):35~36.

篇2

【關(guān)鍵詞】云計(jì)算;物聯(lián)網(wǎng);數(shù)據(jù)挖掘模式

隨著現(xiàn)代化科技的快速發(fā)展,信息的通信以進(jìn)入大容量快傳輸?shù)碾A段,基于云計(jì)算的物聯(lián)網(wǎng)也開(kāi)始備受科技人士的關(guān)注。物聯(lián)網(wǎng)就是一個(gè)物與物相連的網(wǎng)絡(luò),簡(jiǎn)單的說(shuō)是互聯(lián)網(wǎng)從人向物的一種延伸。物聯(lián)網(wǎng)中產(chǎn)生的大量數(shù)據(jù)是和時(shí)間與空間相關(guān)聯(lián)的,有著動(dòng)態(tài)、異構(gòu)和分布的特性,這些對(duì)于物聯(lián)網(wǎng)的數(shù)據(jù)挖掘工作來(lái)說(shuō)是很困難的,因此下面我們就給大家介紹:基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式,這將對(duì)其數(shù)據(jù)的挖掘工作帶來(lái)很大的便利[1]。

一、基于云計(jì)算的物聯(lián)網(wǎng)特性

社會(huì)的發(fā)展必將挑戰(zhàn)科技的最大進(jìn)步,近幾年物聯(lián)網(wǎng)產(chǎn)業(yè)就在高科技的帶動(dòng)下迅猛發(fā)展。物聯(lián)網(wǎng)其實(shí)就是一個(gè)分布廣泛而且巨大的物與物相連的網(wǎng)絡(luò),可以用來(lái)監(jiān)控我們現(xiàn)實(shí)世界中的各種對(duì)象,許許多多的應(yīng)用終端也被接入物聯(lián)網(wǎng)中,包括交通設(shè)施和建筑物還有湖泊等等。但是隨著各種各樣的異構(gòu)終端設(shè)備的接入,我們的物聯(lián)網(wǎng)采集的數(shù)據(jù)量也就會(huì)越來(lái)越大,其數(shù)據(jù)類型和數(shù)據(jù)格式也會(huì)越來(lái)越復(fù)雜,運(yùn)用傳統(tǒng)的數(shù)據(jù)挖掘方法已經(jīng)無(wú)法直接應(yīng)用于物聯(lián)網(wǎng)之中了,因此為了解決以上這些問(wèn)題,我們提出了一種關(guān)于物聯(lián)網(wǎng)數(shù)據(jù)挖掘的基于云計(jì)算的系統(tǒng)。

其實(shí)在現(xiàn)實(shí)網(wǎng)絡(luò)中,在物聯(lián)網(wǎng)中的數(shù)據(jù)有著高度的動(dòng)態(tài)性和異構(gòu)性,物聯(lián)網(wǎng)的數(shù)據(jù)還和時(shí)間與空間有密切的聯(lián)系,而這些恰恰會(huì)給物聯(lián)網(wǎng)的數(shù)據(jù)挖掘帶來(lái)了很大的困擾,要知道物聯(lián)網(wǎng)數(shù)據(jù)的挖掘很耗費(fèi)時(shí)間和內(nèi)存,且還效率低下。于是,云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式就被提出來(lái)了[2]?;谠朴?jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘方法,就是在用云計(jì)算來(lái)作為支持的技術(shù)平臺(tái)上,再構(gòu)建可以面向物聯(lián)網(wǎng)的分布式時(shí)空數(shù)據(jù)庫(kù),再在這個(gè)數(shù)據(jù)庫(kù)的基礎(chǔ)上搭建可以面向擁有海量數(shù)據(jù)物聯(lián)網(wǎng)系統(tǒng)的數(shù)據(jù)挖掘模型?;谠朴?jì)算的數(shù)據(jù)挖掘就是通過(guò)分析,表明該數(shù)據(jù)挖掘模型可以很有效的實(shí)現(xiàn)物聯(lián)網(wǎng)中的數(shù)據(jù)挖掘任務(wù)。

在物聯(lián)網(wǎng)的數(shù)據(jù)量大而且高度動(dòng)態(tài)性與異構(gòu)性,還有數(shù)據(jù)類型復(fù)雜和復(fù)雜時(shí)空特性等特點(diǎn)的基礎(chǔ)上,都將會(huì)為以后數(shù)據(jù)挖掘帶來(lái)新的挑戰(zhàn),有了基于云計(jì)算的物聯(lián)網(wǎng)技術(shù),這些問(wèn)題就可以破刃而解了[3]。

二、基于云計(jì)算的數(shù)據(jù)挖掘模型

基于云計(jì)算的數(shù)據(jù)挖掘的平臺(tái)就是能夠提供動(dòng)態(tài)資源池和虛擬化跟高可用性的計(jì)算平臺(tái)。云計(jì)算的數(shù)據(jù)挖掘平臺(tái)可被用來(lái)開(kāi)發(fā)高性能的應(yīng)用程序,可以利用云計(jì)算來(lái)進(jìn)行數(shù)據(jù)挖掘。

物聯(lián)網(wǎng)中在基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)的過(guò)程力,先由軟件的分層設(shè)計(jì)思想,將基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)的層次自頂向下劃分為:用戶層、任務(wù)層和算法層。在這個(gè)平臺(tái)當(dāng)中,軟件的底層可以透明的為它的上層提供服務(wù),上層就可以通過(guò)其層間的開(kāi)放接口來(lái)調(diào)用下層的服務(wù),這樣就使得層與層之間的功能相對(duì)的做到獨(dú)立,這樣設(shè)計(jì)是易于對(duì)數(shù)據(jù)挖掘系統(tǒng)的二次開(kāi)發(fā),還在設(shè)計(jì)算法層的過(guò)程中設(shè)計(jì)了多層插件的框架結(jié)構(gòu),這樣增加了算法的實(shí)現(xiàn)和維護(hù)的靈活性[4]?;谠朴?jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘既要滿足物聯(lián)網(wǎng)數(shù)據(jù)的復(fù)雜類型還要滿足物聯(lián)網(wǎng)數(shù)據(jù)的高動(dòng)態(tài)性,故此,這樣設(shè)計(jì)的基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式最合適。

圖1 物聯(lián)網(wǎng)(IOT)多層數(shù)據(jù)挖掘模型

三、基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式分析

物聯(lián)網(wǎng)的數(shù)據(jù)挖掘模式要依據(jù)物聯(lián)網(wǎng)環(huán)境而定,由于物聯(lián)網(wǎng)數(shù)據(jù)的復(fù)雜性和物物關(guān)聯(lián)等特性不同,這些都將導(dǎo)致物聯(lián)網(wǎng)的建模方式會(huì)和傳統(tǒng)方式有很大得差異?;谠朴?jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式就是先分析物聯(lián)網(wǎng)的數(shù)據(jù)特性,然后再提出適合的解決方案跟正確的思路,再總結(jié)出合適的數(shù)學(xué)模型。物聯(lián)網(wǎng)的數(shù)據(jù)的特點(diǎn)如下:關(guān)聯(lián)性、信息量大(海量)、質(zhì)量差、時(shí)空性還有非結(jié)構(gòu)性,這和傳統(tǒng)的數(shù)據(jù)挖掘領(lǐng)域完全不同。

圖2 和時(shí)空相關(guān)的物聯(lián)網(wǎng)

物聯(lián)網(wǎng)數(shù)據(jù)的時(shí)空性,原始數(shù)據(jù)通常就是從一個(gè)四維空間中的時(shí)空網(wǎng)絡(luò)里收集出來(lái)的,其抽象示意圖如上所示,其中的每個(gè)點(diǎn)就可以代表物聯(lián)網(wǎng)中的一個(gè)個(gè)體,每一條邊就可以代表物聯(lián)網(wǎng)的物物相聯(lián)關(guān)系。

在物聯(lián)網(wǎng)的應(yīng)用中,物聯(lián)網(wǎng)的數(shù)據(jù)會(huì)發(fā)生成批成片的丟失和錯(cuò)誤,對(duì)于這種物聯(lián)網(wǎng)的數(shù)據(jù)出錯(cuò)與丟失的可能是隨機(jī)的也可能是系統(tǒng)的,基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式應(yīng)考慮到數(shù)據(jù)的丟失和錯(cuò)誤的問(wèn)題,我們給出的解決方案應(yīng)該能夠容忍數(shù)據(jù)的錯(cuò)誤和丟失。在基于物聯(lián)網(wǎng)的數(shù)據(jù)挖掘應(yīng)用建模時(shí),我們還應(yīng)當(dāng)充分考慮如何表達(dá)物理的個(gè)體之間的關(guān)系,物理個(gè)體如果是間接的關(guān)系我們就可以通過(guò)拉普拉斯變換模型或SVD模型推導(dǎo)出來(lái)。其中直接的關(guān)系很重要,物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式本身應(yīng)該有能力來(lái)充分表達(dá)出直接關(guān)系,這將會(huì)方便推理出間接關(guān)系[5]。

基于超圖的物聯(lián)網(wǎng)數(shù)據(jù)模型。超圖中一個(gè)邊可以和任意多的點(diǎn)聯(lián)結(jié),使用超邊可以來(lái)表示在物聯(lián)網(wǎng)中的錯(cuò)綜復(fù)雜的關(guān)聯(lián)關(guān)系。點(diǎn)集合X={v1,v2,v3,v4,v5,v6,v7}超邊集合E={e1,e2,e3,e4}={{v1,v2,v3},{v2,v3}。

基于馬爾可夫鏈的模型。就是在馬爾可夫鏈模型下,想要預(yù)測(cè)將來(lái)要發(fā)生的事情的幾率,只需要根據(jù)當(dāng)前的知識(shí)或信息,過(guò)去的知識(shí)或信息對(duì)于預(yù)測(cè)將來(lái)是無(wú)關(guān)的。在物聯(lián)網(wǎng)的數(shù)據(jù)應(yīng)用中很多都屬于這一類問(wèn)題。

穩(wěn)定的可外推非參數(shù)模型。在物聯(lián)網(wǎng)數(shù)據(jù)的應(yīng)用中,物理建模需要先了解事物間的關(guān)系,再建立數(shù)學(xué)模型老描述數(shù)量上的關(guān)系,但是物聯(lián)網(wǎng)的數(shù)據(jù)丟失或出錯(cuò)、數(shù)據(jù)復(fù)雜度高的問(wèn)題,使用傳統(tǒng)的物理建模方法會(huì)有很大局限性。

四、隱馬爾科夫鏈的數(shù)據(jù)挖掘模式構(gòu)建

圖3 診斷系統(tǒng)的結(jié)構(gòu)圖

基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘中,隱馬爾可夫模型(HMM)就是馬爾可夫鏈的一種,是一個(gè)雙重隨機(jī)過(guò)程,有一定狀態(tài)數(shù)的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集,它的狀態(tài)能通過(guò)觀測(cè)向量序列觀察到,其每一個(gè)觀測(cè)向量都是由一個(gè)具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生的。一個(gè)完整的隱馬爾可夫模型(HMM)包括先隱藏狀態(tài)集,再狀態(tài)轉(zhuǎn)移概率分布,然后觀察量集合和觀察量概率分布,最后初始狀態(tài)概率分布。

物聯(lián)網(wǎng)的數(shù)據(jù)在馬爾可夫鏈模型下,想要預(yù)測(cè)將來(lái)可以通過(guò)當(dāng)前的知識(shí)或信息來(lái)獲取。對(duì)于物聯(lián)網(wǎng)中的數(shù)據(jù)在理想的情況下,當(dāng)設(shè)備的所有動(dòng)力學(xué)特征跟測(cè)量過(guò)程中都可以建立準(zhǔn)確的模型描述,那么我們就可以根據(jù)系統(tǒng)的狀態(tài)估計(jì)和殘差信號(hào)的統(tǒng)計(jì)分析,采用各種方案實(shí)現(xiàn)故障分類。對(duì)于大型的復(fù)雜系統(tǒng),系統(tǒng)面對(duì)的大部分分類觀察量都會(huì)有隨機(jī)的因素,因此很難找到這樣一個(gè)可靠的系統(tǒng)模型,可以使用隱馬爾可夫鏈模型檢測(cè)。隱馬爾可夫模型是一種基于當(dāng)前信息和知識(shí)的預(yù)測(cè),它的結(jié)果對(duì)物聯(lián)網(wǎng)來(lái)說(shuō)有很重要的統(tǒng)計(jì)學(xué)意義,是一種實(shí)現(xiàn)數(shù)據(jù)挖掘的重要模式。

五、結(jié)論

物聯(lián)網(wǎng)的數(shù)據(jù)挖掘模式大大改觀了計(jì)算機(jī)中信息傳輸?shù)姆绞?,物?lián)網(wǎng)具有有改變世界的潛能。由上可知,隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式,可以解決物聯(lián)網(wǎng)在數(shù)據(jù)挖掘方面的問(wèn)題,不僅可以解決數(shù)據(jù)存儲(chǔ)中節(jié)點(diǎn)失效,還降低了數(shù)據(jù)傳輸?shù)臅r(shí)間,大大的提高了挖掘的效率,使物聯(lián)網(wǎng)系統(tǒng)能夠真正的面向商業(yè)運(yùn)用,為企業(yè)的商業(yè)決策服務(wù)。

參考文獻(xiàn):

[1]蔣智毅.基于管理學(xué)基礎(chǔ)理論的云計(jì)算應(yīng)用[J].中國(guó)管理信息化,2011(21):216-217.

[2]張海江,趙建民,朱信忠,等.基于云計(jì)算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘[J].微型電腦應(yīng)用,2012(6):842-843.

[3]金龍.云計(jì)算環(huán)境中的數(shù)據(jù)挖掘存儲(chǔ)管理設(shè)計(jì)[J].軟件工程師,2012(12):183-184.

[4]李志宇.物聯(lián)網(wǎng)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)測(cè)量與控制,2012(06):349-350.

篇3

關(guān)鍵詞: 三維視覺(jué); 籃球投籃; 角度矯正; 圖像分析

中圖分類號(hào): TN911.73?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0045?04

Abstract: Since the manual correction for the basketball shooting angle has poor reference, a 3D vision based correction method for basketball shooting angle is proposed. The 3D visual image information of the basketball shooting is acquired. The wavelet multi?scale decomposition method is used to preprocess the acquired image for noise reduction. The edge contour feature extraction method is adopted to extract the body contour feature of the basketball shooting action in the image, and then the extracted feature is input into the body correction expert system for visual analysis and correction. The method was performed with simulation test and analysis. The simulation and analysis results show that the method has good image analysis performance for the basketball shooting action, can accurately correct the shooting angle in real time and guide the basketball training.

Keywords: 3D vision; basketball shooting; angle correction; image analysis

0 引 言

籃球的投籃是實(shí)現(xiàn)籃球得分的重要一環(huán),籃球投籃如果出現(xiàn)角度和動(dòng)作偏差,就會(huì)導(dǎo)致丟分失球。隨著計(jì)算機(jī)視覺(jué)分析技術(shù)和圖像處理技術(shù)的發(fā)展,采用計(jì)算機(jī)三維視覺(jué)分析進(jìn)行籃球投籃訓(xùn)練和動(dòng)作矯正,實(shí)現(xiàn)科學(xué)訓(xùn)練,提高籃球運(yùn)動(dòng)的投籃準(zhǔn)確性[1?2]。

針對(duì)籃球投籃角度人工矯正可參考性較差的問(wèn)題,提出基于三維視覺(jué)的籃球投籃角度矯正方法。首先采集籃球投籃的三維視覺(jué)圖像信息,采用小波多尺度分解方法對(duì)采集的圖像進(jìn)行降噪預(yù)處理,然后采用邊緣輪廓特征提取方法提取圖像中籃球投籃動(dòng)作的形體輪廓特征,輸入到形體矯正專家系統(tǒng)中進(jìn)行視覺(jué)分析和矯正,最后進(jìn)行仿真測(cè)試分析驗(yàn)證其有效性。

1 圖像信息采集與處理

1.1 籃球投籃三維視覺(jué)信息采集

為了實(shí)現(xiàn)對(duì)籃球投籃動(dòng)作的矯正分析,采用計(jì)算機(jī)三維視覺(jué)分析方法進(jìn)行圖像分析和特征提取,首先構(gòu)建籃球視覺(jué)采集系統(tǒng)。采用實(shí)時(shí)動(dòng)態(tài)視頻幀監(jiān)控方法,利用A/D轉(zhuǎn)換器進(jìn)行視覺(jué)特征的數(shù)模轉(zhuǎn)換,用MUX101程控開(kāi)關(guān)傳輸籃球投籃三維視覺(jué)信息視頻圖像,通過(guò)DSP模塊進(jìn)行圖像處理,在數(shù)據(jù)幀內(nèi)進(jìn)行編碼,依照輸入的籃球投籃動(dòng)作視頻幀的編碼分析信息并調(diào)制數(shù)據(jù)。

籃球投籃三維視覺(jué)信息采集模塊包括信息采集記錄和數(shù)據(jù)分析處理兩大模塊。參數(shù)設(shè)定包括籃球投籃三維視覺(jué)信息采樣輸入通道設(shè)計(jì)、采樣率設(shè)置、耦合方式的設(shè)計(jì)[3?4]。通過(guò)RS 485網(wǎng)絡(luò)或以太網(wǎng)獲取控制端的命令,采集參數(shù)配置成功后讀取RISC微處理器中的主控模塊信息,將各個(gè)組件和模塊連接成一個(gè)整體,最后在液晶顯示器模塊實(shí)現(xiàn)籃球投籃動(dòng)作形體的三維視覺(jué)輸出,得到籃球投籃三維視覺(jué)信息采集系統(tǒng)的結(jié)構(gòu)模型如圖1所示。

利用圖1中模型采集投籃過(guò)程中的圖像信息,定義[σi]表示籃球投籃三維視覺(jué)信息擦劑節(jié)點(diǎn)數(shù)據(jù)的不確定時(shí)間序列編碼;[σx,σθ,][ei]代表投籃動(dòng)作形體變化的融合參量,令:

式中:[μ>0,][μ]表示形體邊緣輪廓特征點(diǎn)的特征參數(shù)值。

采用立體分割方法得到籃球投籃過(guò)程中的形體特征三分量轉(zhuǎn)移概率分別為:

以式(4)為基礎(chǔ),將訓(xùn)練集轉(zhuǎn)變?yōu)閯?dòng)作向量庫(kù),在計(jì)算機(jī)視覺(jué)條件下,籃球投籃的圖像信息采集輸出為: [S(t)=λsx+sθ=λ(λxex+ex+αxex)+(λθeθ+eθ+βθeθ)=δ(X,t)-mS(t)] (5)

當(dāng)[t∞],單幀角點(diǎn)分塊信息素的誤差將趨于0,實(shí)現(xiàn)對(duì)籃球投籃區(qū)域表面網(wǎng)格面的像素特征采集:

在籃球投籃空間中,采集視頻和圖像信息后,運(yùn)用圖像處理算法進(jìn)行投籃角度矯正分析。

1.2 圖像降噪預(yù)處理

上述采集的籃球投籃三維視覺(jué)信息受到動(dòng)態(tài)視覺(jué)信息的干擾產(chǎn)生采集誤差和噪點(diǎn),采用小波多尺度分解方法進(jìn)行降噪預(yù)處理[5?6],定義小波函數(shù)為:

3 仿真測(cè)試

對(duì)籃球投籃角度三維視覺(jué)矯正實(shí)驗(yàn)采用3.40 GHz CPU,4 GB RAM的算機(jī)進(jìn)行仿真實(shí)驗(yàn)分析,采用CCD成像儀采集籃球投籃三維視覺(jué)圖像,選擇5×5,7×7分塊方式進(jìn)行籃球投籃區(qū)域的空間位置網(wǎng)格分區(qū)標(biāo)定,三維視覺(jué)圖像采樣的頻率為15 kHz,采樣的幀長(zhǎng)為1 024幀,圖像采集的樣本測(cè)試集包括6 000幅圖像,取其中兩幀圖像作為測(cè)試集,進(jìn)行圖像分析,得到原始圖像、降噪處理后的圖像如圖2,圖3所示。

采用邊緣輪廓特征提取方法提取圖像中籃球投籃動(dòng)作的形體輪廓特征,輸入到形體矯正專家系統(tǒng)中進(jìn)行視覺(jué)分析和矯正,實(shí)現(xiàn)籃球投籃角度矯正,對(duì)6 000幅圖像進(jìn)行籃球投籃動(dòng)作矯正分析,對(duì)輸出的峰值信噪比和矯正前后的命中率取平均,得到的結(jié)果見(jiàn)表1。

分析上述實(shí)驗(yàn)結(jié)果可以得到如下結(jié)論:

(1) 采用本文方法進(jìn)行籃球投籃動(dòng)作矯正,可以提高輸出視覺(jué)圖像的峰值信噪比,具有較好的圖像處理能力;

(2) 本文方法在投籃矯正后命中率高于傳統(tǒng)方法。

(3) 采用計(jì)算機(jī)三維視覺(jué)分析方法進(jìn)行投籃角度矯正的完成時(shí)間要低于傳統(tǒng)方法,提高了訓(xùn)練效率。

4 結(jié) 語(yǔ)

針對(duì)籃球投籃角度人工矯正可參考性較差的問(wèn)題,進(jìn)行籃球投籃角度計(jì)算機(jī)輔助矯正設(shè)計(jì),提出基于三維視覺(jué)的籃球投籃角度矯正方法。仿真測(cè)試結(jié)果表明,采用本文方法進(jìn)行籃球投籃動(dòng)作圖像處理的效果較好,實(shí)現(xiàn)投籃角度準(zhǔn)確實(shí)時(shí)矯正,效率較高,提高了投籃命中率,改善了訓(xùn)練質(zhì)量和水平。

參考文獻(xiàn)

[1] 鄧剛鋒,黃先祥,高欽和,等.基于改進(jìn)型遺傳算法的虛擬人上肢運(yùn)動(dòng)鏈逆運(yùn)動(dòng)學(xué)求解方法[J].計(jì)算機(jī)應(yīng)用,2014,34(1):129?134.

[2] 胡棚,施惠娟.基于視覺(jué)掩蔽模型的視頻水印算法[J].電子測(cè)量技術(shù),2014,37(12):36?40.

[3] 王小玉,張亞洲,陳德運(yùn).基于多塊局部二值模式特征和人眼定位的人臉檢測(cè)[J].儀器儀表學(xué)報(bào),2014,35(12):2739?2745.

[4] 劉永春,王廣學(xué),栗蘋(píng),等.基于二維概率密度函數(shù)比較的SAR圖像變化檢測(cè)方法[J].電子與信息學(xué)報(bào),2015,37(5):1122?1127.

[5] 黃偉國(guó),顧超,尚麗,等.基于輪廓分層描述的目標(biāo)識(shí)別算法研究[J].電子學(xué)報(bào),2015,43(5):854?861.

[6] 禹潤(rùn)田,方躍法,郭盛.繩驅(qū)動(dòng)并聯(lián)踝關(guān)節(jié)康復(fù)機(jī)構(gòu)設(shè)計(jì)及運(yùn)動(dòng)性能分析[J].機(jī)器人,2015,37(1):53?62.

篇4

(南京林業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院 江蘇 南京 210000)

摘 要:智能交通系統(tǒng)(Intelligent Transport System,ITS)是一種旨在提供更優(yōu)質(zhì)高效的交通管理模式的先進(jìn)系統(tǒng), 致力于運(yùn)用較為科學(xué)的算法,結(jié)合強(qiáng)大的OpenCV庫(kù),實(shí)現(xiàn)對(duì)道路通過(guò)的車(chē)流量較為準(zhǔn)確的實(shí)時(shí)檢測(cè),從而實(shí)時(shí)掌握城市的交通狀況,助力智慧城市的建設(shè)。

關(guān)鍵詞 :車(chē)輛識(shí)別;視頻處理;智慧交通

中圖分類號(hào):T27 文獻(xiàn)標(biāo)識(shí)碼:A doi:10.3969/j.issn.1665-2272.2015.14.047

智能視頻分析技術(shù)是解決上述交通問(wèn)題的一項(xiàng)新興技術(shù)。它利用機(jī)器視覺(jué),對(duì)視頻畫(huà)面監(jiān)控判斷,并進(jìn)行數(shù)據(jù)分析,將提煉的特征形成算法植入機(jī)器,形成“機(jī)器腦”對(duì)視頻畫(huà)面自動(dòng)檢測(cè)分析,并做出相應(yīng)動(dòng)作,從而使攝像機(jī)不但成為人的眼睛,也使計(jì)算機(jī)成為人的大腦,在很大程度上節(jié)省了人力物力,高效地對(duì)道路信息進(jìn)行有效分析及對(duì)道路環(huán)境進(jìn)行管理。

1 相關(guān)研究

從20世紀(jì)50年代開(kāi)始,美國(guó)等一些發(fā)達(dá)國(guó)家就開(kāi)始了對(duì)智能交通系統(tǒng)的探索。1990年,美國(guó)開(kāi)發(fā)出了智能車(chē)輛公路系統(tǒng)(IVHS),以提高交通運(yùn)輸效率,促進(jìn)國(guó)家經(jīng)濟(jì)。2005年11月,美國(guó)運(yùn)輸部與密歇根州運(yùn)輸研究所(UMTRI)合作建成防追尾車(chē)輛安全系統(tǒng),功能包括前方碰撞預(yù)警(FCW),車(chē)道偏離警告(LDW),車(chē)道變更警示(LCW)和曲線測(cè)速預(yù)警(CSW)。

歐洲和日本對(duì)這一領(lǐng)域的研究起步也較早,政府在早期斥巨資研究和開(kāi)發(fā)智能交通系統(tǒng),現(xiàn)在技術(shù)已經(jīng)比較成熟。

我國(guó)在這一領(lǐng)域的發(fā)展起步較晚,盡管在智能監(jiān)控領(lǐng)域已經(jīng)取得了一定的進(jìn)展,但是還是過(guò)去的研究還是存在運(yùn)動(dòng)分割、遮擋處理、多攝像機(jī)的綜合與運(yùn)用等難點(diǎn)問(wèn)題。

2 架構(gòu)與布局

智慧交通系統(tǒng)包括前段設(shè)備、傳輸部件和聯(lián)網(wǎng)平臺(tái)。前段設(shè)備包括攝像頭、紅外接收器、傳感器網(wǎng)絡(luò)等,中間部件通常為電纜等進(jìn)行數(shù)據(jù)傳輸。聯(lián)網(wǎng)平臺(tái)通常為公安系統(tǒng)的監(jiān)控管理系統(tǒng)。監(jiān)控?cái)z像頭采集到視頻后,會(huì)實(shí)時(shí)傳輸回?cái)?shù)據(jù)中心,進(jìn)行運(yùn)算與分析(見(jiàn)圖1)。通過(guò)計(jì)算機(jī)視覺(jué)和視頻分析技術(shù),可以實(shí)時(shí)監(jiān)測(cè)城市的交通狀況,及時(shí)發(fā)現(xiàn)并解決潛在的問(wèn)題。同時(shí)這些信息可以有針對(duì)性得商業(yè)化和提供給民眾,為生活帶來(lái)便利。

通常,在一條道路上會(huì)架設(shè)兩個(gè)攝像頭,將這兩個(gè)攝像頭的數(shù)據(jù)匯總在一起,就能了解這條路上的交通狀況。將城市中所有道路的數(shù)據(jù)匯總到一起就可以反應(yīng)城市實(shí)時(shí)的交通狀況(見(jiàn)圖2)。

3 技術(shù)及其實(shí)現(xiàn)

3.1 視頻文件的提取

視頻預(yù)處理是采用等間隔的方法抓取視頻,使之成為靜態(tài)圖像,幀率為每秒鐘24幀,與原視頻相同,不會(huì)造成信息缺失。

3.2 灰度化處理

彩色圖像一個(gè)像素點(diǎn)有1 600多萬(wàn)個(gè)(255×255×255)取值,而一個(gè)灰度圖像的取值只有255個(gè)。處理彩所用的時(shí)間和空間成本比灰度圖像高很多,對(duì)于車(chē)輛識(shí)別來(lái)說(shuō)灰度化圖片像素已經(jīng)足夠。我們將監(jiān)控視頻進(jìn)行灰度轉(zhuǎn)換,運(yùn)用如下公式:

Gray=0.299R+0.587G+0.114B(1)

R=G=B=Gray(Gray-灰度值、R-紅色分量、G-綠色分量、B-藍(lán)色分量)

3.3 利用haar算法提取樣本特征

計(jì)算機(jī)可以通過(guò)學(xué)習(xí)和歸納,模擬或?qū)崿F(xiàn)人類的行為,代替人們進(jìn)行高效的勞動(dòng)。通過(guò)充分訓(xùn)練的機(jī)器可以識(shí)別監(jiān)控視頻中的車(chē)流量。訓(xùn)練過(guò)程是從Haar特征中選取出一些,并對(duì)AdaBoost分類器進(jìn)行訓(xùn)練。

Haar-like features,即Haar特征,它是計(jì)算機(jī)視覺(jué)領(lǐng)域一種常用的特征算子。最早用于人臉描述,通常分為四類:線性特征、邊緣特征、點(diǎn)特征(即中心特征)、對(duì)角線特征(見(jiàn)圖3)。

(1)矩形特征的計(jì)算。在m×m大小的子窗口(見(jiàn)圖4)中,可以計(jì)算其中存在多少個(gè)矩形特征。

以像素分辨率為m×m的檢測(cè)器為例,在m×m的子窗口中,只要確定左上頂點(diǎn)A(x1,y1)和右下頂點(diǎn)B(x2,y2) ,這個(gè)矩形便可以確定;如果矩形的大小是w×h的話,矩形特征的數(shù)量為:

把W/w、H/h稱為條件矩形(相當(dāng)于縮放)。

矩形特征的通式為:

(2)用積分計(jì)算Haar-like特征。由于計(jì)算一個(gè)60×60的圖像就能算出遠(yuǎn)遠(yuǎn)大于像素?cái)?shù)的矩形特征數(shù),同時(shí)在計(jì)算特征值時(shí)要計(jì)算矩形內(nèi)的像素和,所以計(jì)算一個(gè)矩形特征就要計(jì)算一遍像素和,會(huì)造成運(yùn)算量相當(dāng)大。Viola等提出的利用積分圖求特征值的是解決這個(gè)問(wèn)題的突破,這種方法簡(jiǎn)化了特征值的計(jì)算。

圖5中,坐標(biāo)A(x1,y1)的積分圖是其左上角的所有像素之和(圖5中的陰影部分)。定義為:

式(4)中,i(x,y)表示原始圖像,ii(x,y)表示積分圖,如果是彩色圖像,得出的結(jié)果表示這個(gè)點(diǎn)的彩色值;如果是灰度圖像,得出的結(jié)果是其灰度值,范圍為0~255。

圖5中,點(diǎn)(x,y)的積分圖可以用A(x,y)表示;點(diǎn)(x,y)的y方向的所有原始圖像之和用s(x,y)表示。積分圖也可以用公式(5)和公式(6)得出:

根據(jù)積分圖像算出特征值。

(3)樣本的選取。手動(dòng)截取了7 000張正樣本——汽車(chē)的圖片,還有5 000張負(fù)樣本(即與車(chē)輛無(wú)關(guān)的物體),包括行人、騎摩托車(chē)者、騎自行車(chē)者、路燈、建筑物、樹(shù)等的圖片,然后開(kāi)始訓(xùn)練分類器。

3.4 AdaBoost分類器的構(gòu)成

1995年,F(xiàn)reund和Schapire提出了Adaboost算法,是對(duì)Boosting算法的一大提升。Adaboost是Boosting家族的代表算法之一,全稱為Adaptive Boosting Adaptively,即適應(yīng)地,該方法根據(jù)弱學(xué)習(xí)的結(jié)果反饋適應(yīng)地調(diào)整假設(shè)的錯(cuò)誤率,所以Adaboost不需要預(yù)先知道假設(shè)的錯(cuò)誤率下限。也正因?yàn)槿绱?,它不需要任何關(guān)于弱學(xué)習(xí)器性能的先驗(yàn)知識(shí),而且和Boosting算法具有同樣的效率,所以在提出之后得到了廣泛的應(yīng)用。

算法如下:

訓(xùn)練后得到一個(gè)弱分類器,之后Adaboost是一種迭代算法,之后通過(guò)更新樣本權(quán)值來(lái)評(píng)估當(dāng)前分類器的分類性能。當(dāng)誤識(shí)率控制在一定范圍內(nèi)后,即可得到強(qiáng)分類器。

3.5 監(jiān)控視頻目標(biāo)檢測(cè)

Haar特征的分類器訓(xùn)練完成后,可以通過(guò)加載這個(gè)文件而省去自己建立聯(lián)表的過(guò)程。有了級(jí)聯(lián)表,只需要將待檢測(cè)圖片和級(jí)聯(lián)表一同傳遞給OpenCV的目標(biāo)檢測(cè)算法即可得到一個(gè)車(chē)輛的集合。

4 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證以上的算法及,在windows環(huán)境下實(shí)現(xiàn)了軟件的開(kāi)發(fā)(見(jiàn)圖6、 圖7),在導(dǎo)入城市道路監(jiān)控?cái)z像頭拍攝的視頻(時(shí)長(zhǎng):15min)后,可以自動(dòng)識(shí)別出機(jī)動(dòng)車(chē),以矩形框出,并自動(dòng)計(jì)算出車(chē)流量,交通部門(mén)可以根據(jù)其結(jié)果實(shí)時(shí)了解各道路交通狀況。同時(shí)市民可以根據(jù)其顯示較為直觀得選擇出行路線(見(jiàn)表1)。

參考文獻(xiàn)

1 N.Vapnik,Statistical Learning Theory[J].John Wiley & Sons Inc,1998(3)

2 王亮,胡衛(wèi)明,譚鐵牛.人運(yùn)動(dòng)的視覺(jué)分析綜述[J].計(jì)算機(jī)學(xué)報(bào),2002(3)

篇5

摘 要:基于視覺(jué)的人體運(yùn)動(dòng)分析是計(jì)算機(jī)領(lǐng)域中備受關(guān)注的前沿方向之一,而人行為理解由于在智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)和基于內(nèi)容的視頻檢索等方面有著廣泛的應(yīng)用前景更是成為了未來(lái)研究的前瞻性方向之一。行為理解問(wèn)題一般遵從如下基本過(guò)程:特征提取與運(yùn)動(dòng)表征;行為識(shí)別;高層行為與場(chǎng)景理解。著重從這三個(gè)方面逐一回顧了近年來(lái)人行為理解研究的發(fā)展現(xiàn)狀和常用方法,并對(duì)當(dāng)前該研究方向上亟待解決的問(wèn)題和未來(lái)趨勢(shì)作了較為詳細(xì)的分析。

關(guān)鍵詞:特征選擇;運(yùn)動(dòng)表征;行為識(shí)別;高層行為與場(chǎng)景理解

Abstract:Human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance, human computer interface, virtual reality contendbased video indexing, etc. Human action understanding is generally pidedintothreefundamental subprocesses:feature extraction and motion representation,activity recognition and higher level activity and scene understanding.This paper analyzed the state of the art in human action understanding in detail from three fundamental processes. At the end,provided and analyzed some detailed discussions on vital problems and future directions in human action understanding. 

Key words:feature extraction;motion representation;activity recognition;high level activity and scene understanding

0 引言

近年來(lái),人運(yùn)動(dòng)視覺(jué)分析由于在智能監(jiān)控[1]、高級(jí)人機(jī)交互[2]、虛擬現(xiàn)實(shí)[3]和基于內(nèi)容的視頻檢索與解說(shuō)[4,5]等方面有著廣泛的應(yīng)用前景和潛在的經(jīng)濟(jì)價(jià)值,激發(fā)了廣大科研工作者及相關(guān)商家的濃厚興趣,并成為了計(jì)算機(jī)領(lǐng)域中備受關(guān)注的前沿方向之一。目前,在世界范圍內(nèi)已經(jīng)開(kāi)展了大量的視覺(jué)分析研究項(xiàng)目。例如1997年美國(guó)國(guó)防高級(jí)研究項(xiàng)目署(Defense Advanced Research Projects Agency,DARPA)設(shè)立了視覺(jué)監(jiān)控重大項(xiàng)目VSAM(visual surveillance and monitoring)[6],主要研究用于戰(zhàn)場(chǎng)及普通民用場(chǎng)景監(jiān)控的自動(dòng)視頻理解技術(shù);實(shí)時(shí)視覺(jué)監(jiān)控系統(tǒng)W4[7]不僅能夠定位和分割出人的身體部分以及實(shí)現(xiàn)多人跟蹤,而且能檢測(cè)人是否攜帶物體等簡(jiǎn)單行為;1999年歐盟Framework5程序委員會(huì)設(shè)立重大項(xiàng)目ADVISOR系統(tǒng)[8],旨在開(kāi)發(fā)一個(gè)公共交通(如地鐵、機(jī)場(chǎng))的安全管理系統(tǒng),它覆蓋了人群和個(gè)人的行為模式分析、人機(jī)交互等研究;2000年,DARPA又資助了HID(human identification at a distance)計(jì)劃[9],其任務(wù)是開(kāi)發(fā)多模式監(jiān)控技術(shù)以實(shí)現(xiàn)遠(yuǎn)距離情況下人的檢測(cè)、分類和識(shí)別,從而增強(qiáng)國(guó)防、民用等場(chǎng)所抵御恐怖襲擊的能力;英國(guó)雷丁大學(xué)(University of Reading)[10]先后開(kāi)展了REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)、ISCAPS(integrated surveillance of crowded areas for public security)等項(xiàng)目以研究基于視覺(jué)的單人行為以及人與人之間的交互行為識(shí)別和場(chǎng)景理解等;此外還有能夠?qū)θ诉M(jìn)行跟蹤與行為理解的實(shí)時(shí)系統(tǒng)Pfinder(person finder)[11],由歐盟和奧地利科學(xué)基金會(huì)共同資助的大型視頻監(jiān)控技術(shù)研究項(xiàng)目AVITRACK(aircraft surroundings, categorized vehicles & inpiduals tracking for apron’s activity model interpretation & check)[12]等。國(guó)內(nèi)在該領(lǐng)域的研究起步相對(duì)要晚,但也有許多大學(xué)和研究機(jī)構(gòu)如中國(guó)科學(xué)院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室[13]、亞洲微軟研究院[14]、北京大學(xué)視覺(jué)與聽(tīng)覺(jué)信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室[15]以及清華大學(xué)等對(duì)人視覺(jué)分析關(guān)鍵技術(shù)進(jìn)行了深入的研究。在學(xué)術(shù)方面,一些國(guó)際權(quán)威期刊如PAMI、IP、IJCV、CVIU、IVC和重要的學(xué)術(shù)會(huì)議如CVPR、ICCV和ICPR等將智能化視頻監(jiān)控技術(shù)研究,尤其是人運(yùn)動(dòng)視覺(jué)分析作為主題內(nèi)容之一。這些期刊為該領(lǐng)域的研究人員提供了更多的交流機(jī)會(huì)[1]。

人運(yùn)動(dòng)視覺(jué)分析是利用計(jì)算機(jī)技術(shù)從包含人的圖像序列中檢測(cè)、分類、跟蹤人,并對(duì)其行為進(jìn)行理解與描述。其中運(yùn)動(dòng)檢測(cè)[16~18]、目標(biāo)分類[19]、跟蹤[20~23]屬于視覺(jué)分析中的底層和中層處理部分(有興趣的讀者可參考文獻(xiàn)[24~28]);而行為理解和描述是經(jīng)過(guò)對(duì)運(yùn)動(dòng)對(duì)象的連續(xù)跟蹤觀察,分析識(shí)別目標(biāo)當(dāng)前處于哪種行為模式,并利用語(yǔ)言進(jìn)行描述,以及判斷該行為是否屬于異常行為,其屬于高層處理部分。當(dāng)前,人行為理解與描述受到了廣泛關(guān)注,發(fā)表在上述權(quán)威期刊和重要學(xué)術(shù)會(huì)議上的關(guān)于行為理解研究的論文正逐年增加。由圖1可見(jiàn),關(guān)于人行為理解研究的會(huì)議文章從2002年起急劇增加,并且到2005和2006年每年發(fā)表的會(huì)議論文均保持在70篇以上;期刊文章從2003年也開(kāi)始大幅增加,尤其是2007年前5個(gè)月的文章數(shù)量就超過(guò)2005年全年的數(shù)量并接近2006年全年發(fā)表的數(shù)量。行為理解已經(jīng)成為了未來(lái)研究的前瞻性方向之一。因?yàn)槿诉\(yùn)動(dòng)視覺(jué)分析研究的最終目標(biāo)就是要讓計(jì)算機(jī)能像人那樣通過(guò)視覺(jué)觀察和理解世界[29],也就是通過(guò)視覺(jué)觀察來(lái)分析和理解人類活動(dòng)及場(chǎng)景信息等。行為理解是跟蹤器中像素測(cè)度與行為描述之間的橋梁,是使計(jì)算機(jī)向更加人性化(從“l(fā)ooking at people”向“understanding people”)轉(zhuǎn)變的關(guān)鍵所在。

通過(guò)對(duì)大量行為理解研究文獻(xiàn)的整理發(fā)現(xiàn):人行為理解研究一般遵從特征提取與運(yùn)動(dòng)表征、行為識(shí)別、高層行為與場(chǎng)景理解等幾個(gè)基本過(guò)程[30~33](圖2)。特征提取與運(yùn)動(dòng)表征是在對(duì)目標(biāo)檢測(cè)、分類和跟蹤等底層和中層處理的基礎(chǔ)上,從目標(biāo)的運(yùn)動(dòng)信息中提取目標(biāo)圖像特征并用來(lái)表征目標(biāo)運(yùn)動(dòng)狀態(tài);行為識(shí)別則是將輸入序列中提取的運(yùn)動(dòng)特征與參考序列進(jìn)行匹配,判斷當(dāng)前的動(dòng)作處于哪種行為模型;高層行為與場(chǎng)景理解是結(jié)合行為發(fā)生的場(chǎng)景信息和相關(guān)領(lǐng)域知識(shí),識(shí)別復(fù)雜行為,實(shí)現(xiàn)對(duì)事件和場(chǎng)景的理解。

隨著人行為理解研究的不斷發(fā)展和深入,對(duì)該領(lǐng)域的工作及進(jìn)展作詳細(xì)的回顧和分析顯得很有必要。盡管Aggarwal[24]、Gavrila[25]、Moeslund[26]和Hu[27]等人對(duì)行為理解的方法有所闡述,但他們都是簡(jiǎn)單性地總結(jié)分析其方法,并沒(méi)有對(duì)當(dāng)前行為理解的研究現(xiàn)狀進(jìn)行系統(tǒng)分析。為了使廣大相關(guān)科研人員能更好地了解和掌握行為理解技術(shù)發(fā)展的新動(dòng)向,促進(jìn)行為理解技術(shù)的發(fā)展,本文從行為理解的一般性處理框架出發(fā),對(duì)目前人行為理解的算法研究現(xiàn)狀、存在問(wèn)題及發(fā)展趨勢(shì)等進(jìn)行詳細(xì)介紹。

1 特征選擇與運(yùn)動(dòng)表征

在人運(yùn)動(dòng)視覺(jué)分析中,由于視角的影響,同一種行為可能有不同的投影軌跡,而不同的行為可能有相同的投影軌跡。此外,光照變化、遮擋等現(xiàn)實(shí)環(huán)境因素也都給行為理解帶來(lái)了很大困難。所以從原始視頻數(shù)據(jù)中提取何種底層特征(如形狀信息包括側(cè)影、輪廓,運(yùn)動(dòng)信息包括位置、速度、方向等)描述人運(yùn)動(dòng),以及如何選擇充分有效的描述方法表征人運(yùn)動(dòng)狀態(tài)并且能夠在時(shí)間分辨率和維數(shù)上減少計(jì)算量成為行為理解的關(guān)鍵問(wèn)題之一。

1.1 特征選擇 

表1為2000—2007年400多篇關(guān)于行為理解研究的權(quán)威期刊與重要國(guó)際會(huì)議文章中使用特征的統(tǒng)計(jì)分析表。由表1可見(jiàn),目前行為理解研究所采用的特征主要有如下四種:外觀形狀特征、運(yùn)動(dòng)特征、時(shí)空特征、形狀特征與運(yùn)動(dòng)特征兩者的混合特征。其中,形狀特征和運(yùn)動(dòng)特征是兩種最常用、也是最主要的特征,其比例均保持在30%以上。另外,時(shí)空特征在行為理解研究中開(kāi)始得到越來(lái)越廣泛的使用。

基于外觀形狀特征[34~42]方法是先利用人體幾何結(jié)構(gòu)、輪廓或姿態(tài)以及區(qū)域顏色等信息來(lái)估計(jì)運(yùn)動(dòng)目標(biāo)每時(shí)刻的靜止姿態(tài),然后用這些靜止姿態(tài)序列來(lái)描述人體運(yùn)動(dòng)。外觀形狀特征容易獲得且比較穩(wěn)定,對(duì)紋理變化不敏感?;谶\(yùn)動(dòng)特征方法[43~47]則沒(méi)有利用有關(guān)人體結(jié)構(gòu)的任何形狀信息,而是直接從圖像序列中提取出目標(biāo)運(yùn)動(dòng)特性(時(shí)分)信息(如光流信息、運(yùn)動(dòng)方向、軌跡、位置、速度等)來(lái)表征運(yùn)動(dòng)狀態(tài)。心理學(xué)研究表明,運(yùn)動(dòng)特征具有靜態(tài)形狀特征無(wú)法比擬的優(yōu)勢(shì),即使是在遠(yuǎn)距離或惡劣的能見(jiàn)度情況下和最小運(yùn)動(dòng)系統(tǒng)——MLD(moving light display)[48],人能夠根據(jù)運(yùn)動(dòng)模式輕松地區(qū)別和識(shí)別目標(biāo)的運(yùn)動(dòng)類型,而形狀特征在此種情況下往往變得模糊不清。但目前的計(jì)算機(jī)視覺(jué)方法很難準(zhǔn)確地提取運(yùn)動(dòng)特征,所以,為了充分利用形狀特征和運(yùn)動(dòng)特征各自的優(yōu)勢(shì),研究人員采用兩者的混合特征[49~51]識(shí)別人的行為。此外,時(shí)空特征[52~57]是近年來(lái)行為理解研究中使用比較多的特征。時(shí)空特征通過(guò)采用二維形狀在一段時(shí)間內(nèi)形成的空時(shí)立體或差分圖像來(lái)描述行為,集合了形狀和運(yùn)動(dòng)特征兩者的優(yōu)點(diǎn)。由于時(shí)空特征考慮了運(yùn)動(dòng)信息,也有學(xué)者將其歸類于運(yùn)動(dòng)特征。

1.2 運(yùn)動(dòng)表征

人運(yùn)動(dòng)表征是指從人的運(yùn)動(dòng)序列中提取合適的特征數(shù)據(jù)來(lái)描述人的運(yùn)動(dòng)狀態(tài),這是人行為理解中至關(guān)重要的一步。依據(jù)所用的特征,運(yùn)動(dòng)表征方法可分成基于外觀形狀特征的和基于運(yùn)動(dòng)特征的。

1.2.1 基于外觀形狀特征的運(yùn)動(dòng)表征方法

依據(jù)是否利用人體形狀模型的先驗(yàn)知識(shí),基于外觀形狀的運(yùn)動(dòng)表征方法又可分成基于模型和基于外觀特征(或基于視覺(jué)特征方法)兩類。

基于模型方法的核心思想是首先建立描述空間中人體形狀模型;然后利用目標(biāo)的形態(tài)特征和關(guān)節(jié)位置等信息,將模型與輸入圖像序列在首幀匹配,在后續(xù)幀的跟蹤過(guò)程中,定義損失函數(shù)描述輸入圖像數(shù)據(jù)與模型之間的近似關(guān)系,并采用人體運(yùn)動(dòng)參數(shù)限制條件和最優(yōu)策略如最小平方[58]或隨機(jī)采樣策略如粒子濾波[59,60]等方法最小化損失函數(shù)來(lái)求得當(dāng)前的運(yùn)動(dòng)姿態(tài)。常用的模型結(jié)構(gòu)可以分為矩形框、棍棒形狀[61]、二維輪廓[38]和3D立體模型[58]?;谀P头椒狭讼闰?yàn)?zāi)P椭R(shí)和當(dāng)前輸入,能夠適合復(fù)雜行為的行為理解;但通常要求首先選擇模型,初始化較難、計(jì)算量大,而且由于人運(yùn)動(dòng)的高自由度,容易產(chǎn)生局部最小值,很難找到全局最優(yōu)且魯棒的模型參數(shù),此外由于在后續(xù)的跟蹤中存在累計(jì)誤差,不能分析、跟蹤長(zhǎng)序列運(yùn)動(dòng)。

基于外觀方法并不試圖恢復(fù)人體運(yùn)動(dòng)的結(jié)構(gòu)模型,而是直接從圖像中提取物體的二維空間信息,如高度、寬度、側(cè)影輪廓和顏色等,并用這些特征直接或通過(guò)與已經(jīng)訓(xùn)練好的模型進(jìn)行匹配來(lái)獲得對(duì)當(dāng)前運(yùn)動(dòng)的描述。在這類方法中,形狀分析理論常用來(lái)描述運(yùn)動(dòng)目標(biāo)的形狀變化特征(有關(guān)形狀分析請(qǐng)參考文獻(xiàn)[62])。常用的形狀分析方法有質(zhì)心—邊界距離[34,36]、傅里葉描述符[41]、形狀上下文[42]和統(tǒng)計(jì)形狀分析[32,35,63,64]等。其中,質(zhì)心—邊界距離方法使用一維函數(shù)編碼從形狀的質(zhì)心到形狀邊界點(diǎn)的距離,這種描述符簡(jiǎn)單但不能精確地對(duì)非凸起形狀進(jìn)行編碼,如質(zhì)心與一個(gè)邊界點(diǎn)之間的距離連線可能與另一個(gè)邊界點(diǎn)相交,造成細(xì)節(jié)的丟失。Poppe等人[41]提出用傅里葉描述算子恢復(fù)人姿態(tài);其思想是用固定的邊界采樣點(diǎn)對(duì)人體二維側(cè)影輪廓進(jìn)行采樣,并對(duì)采樣點(diǎn)進(jìn)行傅里葉變換,利用變換后傅里葉系數(shù)的低頻部分描述形狀的大體特征,用高頻部分來(lái)反映形狀的微觀特征即詳細(xì)特征。由于傅里葉描述算子只能描述單個(gè)閉環(huán)曲線,這種方法一般用于描述外部邊界點(diǎn);在噪聲環(huán)境下,傅里葉轉(zhuǎn)換性能不是很好。Mori和Malik[42]則提出用形狀上下文[65]描述算子表征人體側(cè)影形狀來(lái)恢復(fù)人體運(yùn)動(dòng)的三維姿態(tài)。一個(gè)點(diǎn)的形狀上下文算子就是試圖捕捉點(diǎn)集中其他點(diǎn)相對(duì)于該點(diǎn)的分布,它是一種基于內(nèi)部或外部邊界采樣點(diǎn)的局部描述算子。傅里葉描述算子和形狀上下文算子具有平移、旋轉(zhuǎn)和尺度不變性。與傅里葉算子和形狀上下文描述算子不同的是,Hu[66]提出一種基于區(qū)域的不變矩理論,并構(gòu)造出共七個(gè)不變矩,它們具有平移、旋轉(zhuǎn)和縮放不變性,目前已經(jīng)廣泛應(yīng)用于圖像的模式識(shí)別中。Poppe和Poel[67]對(duì)傅里葉描述算子、形狀上下文和不變矩三種算子在側(cè)影輪廓描述上的性能進(jìn)行了比較,并且實(shí)驗(yàn)結(jié)果表明傅里葉描述算子和形狀上下文直方圖在形變側(cè)影描述上比Hu更具有優(yōu)勢(shì)。20 世紀(jì)70年代后期,Dryden等人[63]提出的統(tǒng)計(jì)形狀理論發(fā)展成一種用形狀概率分布分析物體形狀的實(shí)用統(tǒng)計(jì)方法,并且在圖像分析、目標(biāo)識(shí)別等領(lǐng)域得到廣泛應(yīng)用。文獻(xiàn)[64]進(jìn)一步討論了投影形狀和不變量,以及形狀模型、特征和它們各自在高層視覺(jué)中的作用。Jin等人[32]用統(tǒng)計(jì)形方法描述每幀中的目標(biāo)輪廓,并用完全Procrustes均值形狀作為極點(diǎn),構(gòu)造一個(gè)與數(shù)據(jù)集近似的線性空間——切空間;然后用這個(gè)線性化的輪廓作為訓(xùn)練數(shù)據(jù)去學(xué)習(xí)動(dòng)態(tài)系統(tǒng)、估計(jì)系統(tǒng)參數(shù),從而識(shí)別人行為。

此外,目標(biāo)形狀變化的動(dòng)態(tài)特性也為目標(biāo)識(shí)別和動(dòng)作分類提供了重要信息。N.Vaswani等人[68]提出用形狀變化的動(dòng)態(tài)特性來(lái)建模和分類動(dòng)作;Liu等人[69]提出在傅里葉描述算子的基礎(chǔ)上建立自回歸模型學(xué)習(xí)形狀變化的動(dòng)態(tài)信息;基于統(tǒng)計(jì)形狀理論,Veeraraghavan等人[35]提出用自回歸模型(AR)和平穩(wěn)自回歸模型(ARMA)學(xué)習(xí)形狀變化的動(dòng)態(tài)特性,并用模型之間的距離量測(cè)作為兩個(gè)形狀序列之間的相似性測(cè)量,取得了較好的分類效果。

基于外觀特征方法不要求特定的模型,比較簡(jiǎn)單,能夠適用于大量的環(huán)境條件下。但外觀特征方法由于沒(méi)有模型先驗(yàn)信息限制,很難建立連續(xù)幀之間的特征對(duì)應(yīng)關(guān)系,并且很難區(qū)別信號(hào)和噪聲,一般對(duì)噪聲敏感。此外,外觀特征受視角影響大,所以許多學(xué)者[58,70~72]研究基于多視角環(huán)境中人的行為分析和識(shí)別。

1.2.2 基于運(yùn)動(dòng)特征的運(yùn)動(dòng)表征方法

基于運(yùn)動(dòng)特征的表征方法可以細(xì)分為:

a)基于預(yù)先確定區(qū)域(如腿、頭)跟蹤的運(yùn)動(dòng)軌跡分析方法。其關(guān)鍵是運(yùn)動(dòng)匹配[43,45,73],思想是在一幀圖像中提取出興趣點(diǎn)或區(qū)域、典型特征,并且在隨后圖像幀中進(jìn)行跟蹤,多幀之間的這些特定點(diǎn)或區(qū)域位置匹配就會(huì)產(chǎn)生一條運(yùn)動(dòng)軌跡;然后對(duì)軌跡進(jìn)行參數(shù)化處理,如將軌跡轉(zhuǎn)換成水平、垂直方向的速度以及時(shí)空曲率等來(lái)描述運(yùn)動(dòng)特性。

b)基于非預(yù)先確定的目標(biāo)區(qū)域運(yùn)動(dòng)分析方法。其最典型的代表是光流法[44,46,47,74]。與運(yùn)動(dòng)軌跡不同的是,光流法是計(jì)算空間運(yùn)動(dòng)物體表面上像素點(diǎn)運(yùn)動(dòng)產(chǎn)生的瞬時(shí)速度場(chǎng)。它通過(guò)計(jì)算圖像序列中連續(xù)兩幀亮度信息來(lái)得到,指的是圖像亮度模式的表觀(或視在)運(yùn)動(dòng)(apparent motion)。例如Zhu等人[47]提出用光流直方圖來(lái)描述動(dòng)作的運(yùn)動(dòng)信息,然后用支持向量機(jī)作分類器識(shí)別運(yùn)動(dòng)員的擊球動(dòng)作。光流法在無(wú)須背景區(qū)域的任何先驗(yàn)知識(shí)條件下就能夠?qū)崿F(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的檢測(cè)和跟蹤。光流計(jì)算的基本等式是假設(shè)相鄰兩幅圖像中對(duì)應(yīng)兩點(diǎn)的灰度不變得到的。在這個(gè)假設(shè)條件下首先要求兩幅圖像相鄰時(shí)刻之間的間隔是很小的(幾十毫秒之內(nèi)),并且要求場(chǎng)景光照均勻。此外光流法的計(jì)算量較大。

時(shí)空特征不僅包含人動(dòng)作姿態(tài)的空間信息(人體軀干和肢體的位置、方向等),而且還包含運(yùn)動(dòng)的動(dòng)態(tài)信息(人體的全局運(yùn)動(dòng)和肢體的相對(duì)運(yùn)動(dòng)),從而避免了光流場(chǎng)計(jì)算可能遇到的問(wèn)題(包括孔徑、全局平滑性約束、奇異性等)和外觀形狀特征跟蹤問(wèn)題[75,76](自遮擋、重新初始化、外觀改變、運(yùn)動(dòng)信息缺乏等)等。所以近年來(lái)時(shí)空特征在行為識(shí)別中得到了大量的使用[52~57]。Bobick和Davis[52]集合時(shí)空運(yùn)動(dòng)特征,提出了用運(yùn)動(dòng)歷史圖(MHIs)和運(yùn)動(dòng)能量圖(MEIs)來(lái)描述運(yùn)動(dòng)。其中運(yùn)動(dòng)歷史圖反映運(yùn)動(dòng)是怎么產(chǎn)生的,而運(yùn)動(dòng)能量圖反映運(yùn)動(dòng)發(fā)生的位置。文獻(xiàn)[53,54]則提出用迭代濾波(recursive filtering)和幀分組(frame grouping)來(lái)描述運(yùn)動(dòng)信息。用迭代濾波方法對(duì)視頻序列中的每幀圖像進(jìn)行濾波處理得到一幅濾波圖像,其反映當(dāng)前幀的場(chǎng)景空間分布信息、相鄰幀之間的時(shí)分關(guān)系以及短時(shí)間內(nèi)的運(yùn)動(dòng)速度;幀分組方法思想是單獨(dú)分類視頻切片中的每個(gè)濾波圖像,然后用多數(shù)投票方法分類這些已標(biāo)志的濾波圖像的運(yùn)動(dòng)類型。

基于運(yùn)動(dòng)特征和外觀形狀特征表征的方法都有各自的缺點(diǎn),基于運(yùn)動(dòng)特征能夠描述人的近似運(yùn)動(dòng)方向和軌跡等,但很難準(zhǔn)確、穩(wěn)定地捕捉目標(biāo)運(yùn)動(dòng)特性;另一方面,外觀形狀特征能夠描述人的姿態(tài)信息,但由于沒(méi)有運(yùn)動(dòng)信息,描述行為動(dòng)作的能力有限。所以研究人員[56~58]通過(guò)采用融合兩種特征的方法來(lái)對(duì)人行為進(jìn)行建模和識(shí)別。

2 行為識(shí)別

行為識(shí)別問(wèn)題可以簡(jiǎn)單地看做是時(shí)變特征數(shù)據(jù)的分類問(wèn)題,即將測(cè)試序列與預(yù)先標(biāo)定的代表典型行為的參考序列進(jìn)行匹配,那么其關(guān)鍵問(wèn)題是如何從學(xué)習(xí)樣本中獲取參考行為序列以及如何度量參考序列與測(cè)試序列之間的相似性。由于人動(dòng)作執(zhí)行的速度不一樣,學(xué)習(xí)和匹配行為序列時(shí)還必須能夠處理相似運(yùn)動(dòng)模式在空間和時(shí)間尺度上輕微的特征變化。目前,行為識(shí)別方法一般可以分成靜態(tài)識(shí)別和動(dòng)態(tài)識(shí)別。靜態(tài)識(shí)別方法是把行為看做由一組按時(shí)間順序串連起來(lái)的靜態(tài)圖像序列,其常用的方法有模板匹配方法;動(dòng)態(tài)識(shí)別方法是定義每個(gè)靜態(tài)姿勢(shì)作為圖模型上的一個(gè)節(jié)點(diǎn)或狀態(tài),這些節(jié)點(diǎn)或狀態(tài)之間通過(guò)某種關(guān)系如概率聯(lián)系起來(lái)。任何運(yùn)動(dòng)序列可以看做這些靜態(tài)姿勢(shì)的不同狀態(tài)之間的一次遍歷過(guò)程。常用的識(shí)別方法有隱馬爾可夫模型(hidden Markov models,HMMs)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network,DBN)等。這些方法可以總歸為基于狀態(tài)轉(zhuǎn)移的圖模型方法。

2.1 基于模板匹配方法

基于模板匹配方法是用從輸入圖像序列提取的特征與在訓(xùn)練階段預(yù)先保存好的模板進(jìn)行相似度比較,選擇與測(cè)試序列距離最小的已知模板的所屬類別作為被測(cè)試序列的識(shí)別結(jié)果。Bobick和Davis[52]將圖像序列目標(biāo)運(yùn)動(dòng)信息轉(zhuǎn)換成運(yùn)動(dòng)能量圖像(MEI)和運(yùn)動(dòng)歷史圖像(MHI),采用馬氏距離度量測(cè)試序列與模板之間的相似性;Masoud等人[53]則采用無(wú)限沖擊響應(yīng)濾波器來(lái)描述運(yùn)動(dòng),并將其投影到特征空間,然后用Hausdorff距離度量測(cè)試序列與參考序列之間的相似性。此外,還有學(xué)者采用Procrustes距離[50]來(lái)度量測(cè)試序列與模板之間的相似性。這些最近鄰方法盡管在一定程度上反映了運(yùn)動(dòng)的時(shí)分關(guān)系,計(jì)算量小,但并沒(méi)有對(duì)運(yùn)動(dòng)的時(shí)分限制條件進(jìn)行建模,魯棒性較差。為此,Veeraraghavan等人[35]用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)來(lái)匹配運(yùn)動(dòng)序列。DTW是一種時(shí)變數(shù)據(jù)序列匹配方法,常用于微生物學(xué)的DNA匹配、字符串和符號(hào)的比較以及語(yǔ)音分析[77]。DTW算法的思想是給定參考模板特征矢量序列與輸入特征矢量序列,尋找一個(gè)最佳的時(shí)間規(guī)整函數(shù),使得輸入序列的時(shí)間軸映射到參考模板的時(shí)間軸上總的累計(jì)失真最小。對(duì)DTW而言,即使測(cè)試序列模式與參考序列模式的時(shí)間尺度不能完全一致,只要時(shí)間次序約束存在,它仍能較好地完成測(cè)試序列與參考序列之間的模式匹配。DTW具有概念簡(jiǎn)單、算法魯棒的優(yōu)點(diǎn),能夠?qū)D像序列進(jìn)行分類。文獻(xiàn)[35]在形狀空間中用動(dòng)態(tài)時(shí)間規(guī)整方法計(jì)算兩個(gè)形狀序列之間的距離來(lái)識(shí)別動(dòng)作和步態(tài),取得了很好的分類結(jié)果。然而,DTW算法計(jì)算量較大,缺乏考慮相鄰時(shí)序之間的動(dòng)態(tài)特性,而在實(shí)際中,運(yùn)動(dòng)序列中相鄰序列在時(shí)間和空間上有高度的相關(guān)性。

基于模板匹配方法計(jì)算復(fù)雜度低、實(shí)現(xiàn)簡(jiǎn)單,但缺乏考慮運(yùn)動(dòng)序列中相鄰時(shí)序之間的動(dòng)態(tài)特性,對(duì)于噪聲和運(yùn)動(dòng)時(shí)間間隔變化敏感。

2.2 基于狀態(tài)轉(zhuǎn)移圖模型方法

基于狀態(tài)轉(zhuǎn)移圖模型方法[78,79]是將每個(gè)靜態(tài)姿勢(shì)或運(yùn)動(dòng)狀態(tài)作為圖中的一個(gè)節(jié)點(diǎn)或狀態(tài),對(duì)應(yīng)于各個(gè)姿勢(shì)或運(yùn)動(dòng)狀態(tài)節(jié)點(diǎn)之間的依存關(guān)系通過(guò)某種概率聯(lián)系起來(lái),這樣任何運(yùn)動(dòng)序列可以看做在圖中不同節(jié)點(diǎn)或狀態(tài)之間的一次遍歷過(guò)程。常用于行為理解的圖模型方法有隱馬爾可夫及其改進(jìn)模型[80~95]、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)[96~102]、人工神經(jīng)網(wǎng)絡(luò)[45,103]、有限狀態(tài)機(jī)[104,105]和置信網(wǎng)絡(luò)[106]等。本文對(duì)前三種常用方法進(jìn)行總結(jié)分析。

2.2.1 隱馬爾可夫及改進(jìn)模型

與DTW相比,隱馬爾可夫模型是一種更加成熟的匹配時(shí)變數(shù)據(jù)的技術(shù)。HMMs用馬爾可夫過(guò)程建立相鄰實(shí)例之間的相互關(guān)系,并假設(shè)觀察序列由固定個(gè)數(shù)的隱狀態(tài)構(gòu)成的隱過(guò)程決定,是一種隨機(jī)狀態(tài)機(jī)。HMMs的使用涉及到訓(xùn)練和分類兩個(gè)階段。訓(xùn)練階段包括指定一個(gè)隱馬爾可夫模型的隱藏狀態(tài)數(shù),并且優(yōu)化相應(yīng)的狀態(tài)轉(zhuǎn)換和輸出概率,以便于產(chǎn)生的輸出符號(hào)與對(duì)特定運(yùn)動(dòng)類別之內(nèi)所觀察到的圖像特征相匹配。受HMMs在語(yǔ)音數(shù)據(jù)分析[80]成功應(yīng)用的影響,研究人員將HMMs用于視覺(jué)識(shí)別[73,81~83]。Bregler[81]基于人體動(dòng)力學(xué)在不同抽象等級(jí)的統(tǒng)計(jì)分析,提出了用一個(gè)綜合性的網(wǎng)絡(luò)來(lái)識(shí)別人的運(yùn)動(dòng):在底層處理階段,以混合高斯模型來(lái)估計(jì)基于運(yùn)動(dòng)、彩色相似度和空間接近程度等小區(qū)域塊,不同的身體部分區(qū)域在圖像序列中被跟蹤;在中層處理階段,具有一致運(yùn)動(dòng)特性的區(qū)域被匹配為動(dòng)力學(xué)系統(tǒng)中的簡(jiǎn)單運(yùn)動(dòng)(如行走被認(rèn)為是兩個(gè)簡(jiǎn)單運(yùn)動(dòng)的組成:一個(gè)是腿的支撐,一個(gè)是腿在空中的擺動(dòng));在高層處理階段,HMMs被用來(lái)作為這些中級(jí)動(dòng)力系統(tǒng)的混合模型以表達(dá)復(fù)雜的運(yùn)動(dòng),識(shí)別過(guò)程通過(guò)最大化HMMs的后驗(yàn)概率來(lái)完成。實(shí)驗(yàn)表明,在學(xué)習(xí)能力和處理未分割的連續(xù)數(shù)據(jù)流方面,HMMs比DTW有更好的優(yōu)越性。

HMMs有很強(qiáng)的輸出獨(dú)立性假設(shè)限制,其信號(hào)處理過(guò)程是一個(gè)單路馬爾可夫過(guò)程,不能處理多個(gè)且相互依存的序列,導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇;而且其拓?fù)浣Y(jié)構(gòu)是事先給定的,它的模型參數(shù)需要用EM算法來(lái)估計(jì)(BaumWelch 算法);對(duì)觀測(cè)矩陣的初始值比較敏感,如果初始值選擇不當(dāng),會(huì)造成概率函數(shù)的局部最大值。另外,分類模型不靈活,不能處理運(yùn)動(dòng)中分層與共享結(jié)構(gòu)。為了識(shí)別復(fù)雜動(dòng)作與人們之間的交互行為,Brand等人[84]提出一種耦合隱馬爾可夫模型(coupled hidden Markov models, CHMM)[84~86]來(lái)建模行為中兩個(gè)相互關(guān)聯(lián)的隨機(jī)過(guò)程,并用CHMM對(duì)手勢(shì)進(jìn)行識(shí)別。結(jié)果表明,與傳統(tǒng)HMMs相比,CHMM具有更好的分類效果,計(jì)算速度快,而且對(duì)初始條件不敏感。Fine等人[87]為處理自然序列中復(fù)雜的多尺度結(jié)構(gòu),提出了層級(jí)隱馬爾可夫模型(hierarchical hidden Markov model,HHMM)。HHMM具有多層隱馬爾可夫模型的結(jié)構(gòu),所以能夠更為清楚地表達(dá)出人運(yùn)動(dòng)中不同層次的行為細(xì)節(jié)。Nguyen等人[88,89]采用HHMM識(shí)別人的行為,并取得了很好的分類效果。此外還有抽象隱馬爾可夫模型(abstract hidden Markov model, AHMM)[90]、可變長(zhǎng)馬爾可夫模型(variable length Markov model,VLMM)[91]、熵隱馬爾可夫模型[92,93]和分層隱馬爾可夫模型(layered hidden Markov model,LHMM)[94,95]等也被用于復(fù)雜行為識(shí)別。

2.2.2 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)

由于HMMs不能有效處理三個(gè)或三個(gè)以上獨(dú)立的過(guò)程[86],學(xué)者提出了HMMs的推廣方法——?jiǎng)討B(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian networks,DBNs)[96]。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)是一種對(duì)隨機(jī)過(guò)程描述的有向圖解,通過(guò)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)反映變量間的概率依存關(guān)系及其隨時(shí)間變化的情況,不受馬爾可夫鏈的鏈狀結(jié)構(gòu)約束,因此不但能夠在每個(gè)時(shí)刻上對(duì)多個(gè)隨機(jī)變量所對(duì)應(yīng)的不同特征之間的依存關(guān)系進(jìn)行概率建模而不僅僅是一個(gè)隱藏狀態(tài)變量,而且考慮了各個(gè)時(shí)刻間的轉(zhuǎn)移概率,能夠很好地反映特征之間的時(shí)序關(guān)系,適用于不確定性和概率性事物。所以動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)逐漸成為人行為理解研究中一個(gè)有力的數(shù)學(xué)工具[97~102]。Park和Aggarwal[97]提出用層級(jí)貝葉斯網(wǎng)絡(luò)方法識(shí)別兩個(gè)人之間的動(dòng)作。該方法在貝葉斯網(wǎng)絡(luò)的低層估計(jì)被跟蹤身體部分的姿態(tài);然后在貝葉斯網(wǎng)絡(luò)高層估計(jì)整個(gè)身體的姿態(tài);最后用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)處理綜合多個(gè)身體部分組成的狀態(tài)。Muncaster等人[102]提出一個(gè)一般的d-層動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)識(shí)別復(fù)雜的事件,在每一層用確定性的退火聚類算法自動(dòng)檢測(cè)觀測(cè)層的狀態(tài)。文獻(xiàn)[98,99]則用貝葉斯網(wǎng)絡(luò)識(shí)別停車(chē)場(chǎng)和地鐵監(jiān)控環(huán)境下的復(fù)雜行為。

貝葉斯網(wǎng)絡(luò)的主要優(yōu)點(diǎn)是利用先驗(yàn)知識(shí)建立視覺(jué)特征之間的因果關(guān)系來(lái)處理視頻處理中固有的不確定性問(wèn)題。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)還可以任意改變拓?fù)浣Y(jié)果或增刪變量以反映變量間各種不同的關(guān)聯(lián)關(guān)系,而不影響訓(xùn)練算法本身,因此具有良好的可解釋性,其拓?fù)浣Y(jié)構(gòu)具有精確及易于理解的概率語(yǔ)義。相比馬爾可夫鏈,貝葉斯網(wǎng)絡(luò)訓(xùn)練比較復(fù)雜。

2.2.3 神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是由人工建立的以有向圖為拓?fù)浣Y(jié)構(gòu)的動(dòng)態(tài)系統(tǒng),它通過(guò)對(duì)連續(xù)或斷續(xù)的輸入作狀態(tài)響應(yīng)而進(jìn)行信息處理,在分析時(shí)變數(shù)據(jù)時(shí)具有很大的優(yōu)勢(shì)。Buccolieri等人[103]用神經(jīng)網(wǎng)絡(luò)對(duì)輪廓進(jìn)行分析來(lái)識(shí)別人的姿態(tài)。由于神經(jīng)網(wǎng)絡(luò)通常需要用大量的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò),研究學(xué)者在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了時(shí)延神經(jīng)網(wǎng)絡(luò)(timedelay neural network,TDNN)。時(shí)延神經(jīng)網(wǎng)絡(luò)是在多層前饋感知器神經(jīng)網(wǎng)絡(luò)模型中引入時(shí)延單元使得神經(jīng)網(wǎng)絡(luò)增加記憶功能;同時(shí),時(shí)變序列的前述值被用來(lái)預(yù)測(cè)下一個(gè)值。由于大量數(shù)據(jù)集成為可能,時(shí)延神經(jīng)網(wǎng)絡(luò)的重點(diǎn)就可以放在時(shí)分信息的表達(dá),這樣由此導(dǎo)出的神經(jīng)網(wǎng)絡(luò)模型適合應(yīng)用于處理序列數(shù)據(jù)。Yang和Ahuja[45]應(yīng)用時(shí)延神經(jīng)網(wǎng)絡(luò)于手勢(shì)識(shí)別,并取得了較高的識(shí)別率。

除了上述兩類方法,支持向量機(jī)(support vector machine,SVM)由于能夠較好地解決常見(jiàn)的非線性分類問(wèn)題中的小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問(wèn)題,同時(shí)可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題,成為20世紀(jì)90年代末發(fā)展最快的研究方向之一,并且在行為理解中也得到了充分的應(yīng)用[47,54,107~109]。Cao等人[54]用SVM建立濾波圖像分類器來(lái)對(duì)運(yùn)動(dòng)分類。文獻(xiàn)[109]提出一種基于光流直方圖運(yùn)動(dòng)描述算子,并用SVM訓(xùn)練分類器識(shí)別運(yùn)動(dòng)員的動(dòng)作。

3 高層行為與場(chǎng)景理解

盡管用上述行為識(shí)別方法能夠識(shí)別較復(fù)雜的動(dòng)作,但要理解“場(chǎng)景中在發(fā)生什么事情”等復(fù)雜行為與事件,不僅需要解釋和理解視覺(jué)輸入,還需要場(chǎng)景中相關(guān)信息與背景知識(shí),尤其是對(duì)涉及人活動(dòng)的場(chǎng)景理解更需要抽象且有代表意義的策略。高層行為事件與場(chǎng)景理解是在對(duì)場(chǎng)景圖像信息的各種處理和分析的基礎(chǔ)上,解釋和描述場(chǎng)景圖像的內(nèi)容,包括場(chǎng)景中人與人、人與物體的行為以及它們之間的時(shí)空關(guān)系,這也稱為高層視覺(jué)。目前研究較多的事件檢測(cè)是對(duì)整個(gè)視頻序列內(nèi)容以及真實(shí)場(chǎng)景的總結(jié)分析過(guò)程。其核心思想是利用物體或環(huán)境知識(shí)去理解場(chǎng)景中發(fā)生的動(dòng)作或?qū)⒁l(fā)生的動(dòng)作,廣泛應(yīng)用于停車(chē)場(chǎng)、超市、地鐵以及機(jī)場(chǎng)等公共場(chǎng)所的智能監(jiān)控中檢測(cè)是否有異常行為發(fā)生并告警。VSAM、Pfinder和AVITRACK等系統(tǒng)都具有場(chǎng)景理解與事件檢測(cè)的功能。目前高層行為與場(chǎng)景理解的方法包括基于規(guī)則推理網(wǎng)絡(luò)[33,105,106,110~113]、隨機(jī)文法(包括隨機(jī)上下文無(wú)關(guān)文法:stochastic context free grammar,SCFG)[114~116]、概率狀態(tài)依存語(yǔ)法(probabilistic state dependent grammars,PSDG)[117]、因果分析[118]等。

Badler[105]提出一種基于運(yùn)動(dòng)動(dòng)詞的分層框架來(lái)分析運(yùn)動(dòng)。一個(gè)運(yùn)動(dòng)動(dòng)詞就是一種行為,而這些動(dòng)詞是預(yù)先定義在靜態(tài)圖像的規(guī)則基礎(chǔ)上,用自動(dòng)狀態(tài)機(jī)建立起行為之間的聯(lián)系。這種系統(tǒng)理論上可以解釋人行為中的復(fù)雜事件,但系統(tǒng)僅僅在人工環(huán)境中進(jìn)行測(cè)試。Kojima和Tamura[111]則提出一種事件框架來(lái)識(shí)別單個(gè)人的動(dòng)作。首先提取出人體頭、身體和手的運(yùn)動(dòng),定義事件幀(case frame)來(lái)描述動(dòng)作規(guī)則,從而建立起人運(yùn)動(dòng)姿態(tài)、位置信息與運(yùn)動(dòng)概念之間的對(duì)應(yīng)關(guān)系。Hongeng等人[112]則提出事件是由動(dòng)作線程構(gòu)成,而且每個(gè)線程有單個(gè)角色執(zhí)行,每個(gè)單一動(dòng)作線程通過(guò)貝葉斯方法,利用角色的軌跡和運(yùn)動(dòng)塊特性來(lái)識(shí)別,這樣事件可以通過(guò)許多在時(shí)分限制上相關(guān)的動(dòng)作線程來(lái)表達(dá)。Robertson等人[113]組合運(yùn)動(dòng)軌跡信息與局部運(yùn)動(dòng)描述算子,借助圖像特征數(shù)據(jù)概率搜索方法來(lái)描述和識(shí)別動(dòng)作,并用編碼場(chǎng)景規(guī)則的HMM平滑動(dòng)作序列,這樣通過(guò)計(jì)算當(dāng)前動(dòng)作序列下的HMM概率來(lái)識(shí)別高層行為。基于規(guī)則的方法在動(dòng)作分析中顯示了其優(yōu)點(diǎn),但由于某些行為的模糊性,基于規(guī)則推理方法很難給每個(gè)行為定義準(zhǔn)確的規(guī)則,而且不同的應(yīng)用領(lǐng)域定義的規(guī)則也不相同。

隨機(jī)文法由于能夠從包括HMM不能同時(shí)處理的多個(gè)過(guò)程中提取出有意思的行為,被用來(lái)有效地描述真實(shí)場(chǎng)景。Ivanov和Bobick[115]提出兩步策略來(lái)理解自動(dòng)監(jiān)控系統(tǒng)中的高層行為和事件。在低層處理部分用HMM檢測(cè)和識(shí)別簡(jiǎn)單的行為模式,并將輸出向量映射為離散語(yǔ)法字母表;在高層部分則采用隨機(jī)上下文無(wú)關(guān)文法模型分析、理解低層輸出,最終實(shí)現(xiàn)行為理解。但這種方法受其語(yǔ)法的上下文無(wú)關(guān)約束的限制。復(fù)雜的行為,尤其是有目的的行為,其狀態(tài)通常是前后相關(guān)的,也就是下面的行為依賴于當(dāng)前的狀態(tài),這樣使得行為并不是上下文無(wú)關(guān)的。此外,兩步識(shí)別策略不支持從低層數(shù)據(jù)到高層理解的在線無(wú)縫概率推理?;谶@樣的缺點(diǎn),Nguyen等人[119]提出用抽象隱馬爾可夫記憶模型(abtract hidden Markov memory model,AHMEM)識(shí)別復(fù)雜室內(nèi)環(huán)境中人的高層行為。Park和Aggarwal[118]提出一種事件語(yǔ)義學(xué)來(lái)表達(dá)和識(shí)別人之間的交互行為,并用語(yǔ)言學(xué)中的動(dòng)詞元結(jié)構(gòu)按每三個(gè)運(yùn)動(dòng)目標(biāo)一組的結(jié)構(gòu)形式來(lái)描述運(yùn)動(dòng)。時(shí)空限制用于決策樹(shù)來(lái)識(shí)別特殊的交互行為。在這個(gè)框架下,人的動(dòng)作以“主語(yǔ)+動(dòng)詞+賓語(yǔ)”結(jié)構(gòu)來(lái)自動(dòng)表達(dá),同時(shí)人的交互行為根據(jù)人動(dòng)作之間的因果語(yǔ)義關(guān)系來(lái)描述。

當(dāng)前對(duì)高層行為與場(chǎng)景理解的研究還很不完善,高層行為與場(chǎng)景理解研究受一些視覺(jué)基礎(chǔ)問(wèn)題的束縛,如像素級(jí)的分割、遮擋以及處理可變性的能力。目前的研究都是針對(duì)特定領(lǐng)域應(yīng)用的研究,有些只是提取場(chǎng)景信息高層的語(yǔ)義,不可能在任意圖像中確定不同的景物。

4 行為理解存在的問(wèn)題與發(fā)展趨勢(shì)

盡管近年來(lái)利用機(jī)器學(xué)習(xí)工具構(gòu)建人行為的統(tǒng)計(jì)模型、理解人行為的研究有了一定的進(jìn)展,但由于動(dòng)態(tài)場(chǎng)景中運(yùn)動(dòng)的快速分割、寬松的著裝、遮擋、陰影和光照變化、運(yùn)動(dòng)的非剛性和高自由度[24,120]、行為發(fā)生的場(chǎng)景和人運(yùn)動(dòng)的模糊性(關(guān)于行為、事件、狀態(tài)有著不同的概念)等因素的影響,使得人視覺(jué)行為理解成為一個(gè)復(fù)雜且極具挑戰(zhàn)性的任務(wù)。相對(duì)于檢測(cè)、跟蹤等技術(shù)的顯著發(fā)展,其行為理解的研究進(jìn)展比較緩慢。目前行為理解的研究仍處于初級(jí)階段,即原子動(dòng)作[29]分析,也就是簡(jiǎn)單日常標(biāo)準(zhǔn)動(dòng)作如行走、跳、站起、坐等[30~37]和以人行為為目標(biāo)的簡(jiǎn)單事件檢測(cè)等[97,102,121~123]。其亟待解決的問(wèn)題和未來(lái)的發(fā)展趨勢(shì)有以下幾個(gè)方面:

a)運(yùn)動(dòng)特征選擇與表達(dá)。如何選擇特征來(lái)充分表達(dá)運(yùn)動(dòng)成為行為理解的關(guān)鍵問(wèn)題之一。一般是盡可能選擇較多的特征或者是在連續(xù)特征的典型匹配過(guò)程中引入人運(yùn)動(dòng)模型的簡(jiǎn)化約束條件來(lái)減少、消除歧義性。但如果選取的特征過(guò)多、特征向量維數(shù)過(guò)大,則會(huì)增加計(jì)算的復(fù)雜度;而選擇特征過(guò)少,又可能不足以識(shí)別與理解人行為,而引入人運(yùn)動(dòng)模型的簡(jiǎn)化約束條件與一般的圖像條件卻又是不吻合的[28]。因此,能否借鑒人類的學(xué)習(xí)、識(shí)別與理解機(jī)理,定義一個(gè)動(dòng)態(tài)特征模型,首先提取有關(guān)行為的主要特征,當(dāng)這些特征不足以完成識(shí)別與理解時(shí),系統(tǒng)逐步提取候選的細(xì)節(jié)特征;另外一種更好的辦法是使用行為的二維表達(dá)捕捉行為的視覺(jué)不變特征[49,124],那樣對(duì)行為理解不會(huì)引起歧義。但是如何選擇視覺(jué)不變特征卻又是一項(xiàng)很困難的任務(wù)。此外,提取特征的不穩(wěn)定性也為行為理解帶來(lái)很大的困難,但多模特征融合將為行為理解提供一種很好的解決辦法。例如在某些環(huán)境中,可視信息受干擾,變得敏感不可靠時(shí),聲音特征將為基于視頻的行為理解提供一個(gè)很好的補(bǔ)充[125,126];在遮擋的情況下,基于多攝像機(jī)信息融合方法由于能夠很好地解決遮擋問(wèn)題,在行為理解研究[70~72]也將會(huì)得到快速的發(fā)展。

對(duì)于運(yùn)動(dòng)特征表征來(lái)說(shuō),不同復(fù)雜程度的運(yùn)動(dòng)通常會(huì)采用不同的運(yùn)動(dòng)表達(dá)方法,即使是同一種動(dòng)作在不同的場(chǎng)合,由于快慢速度不一致等都會(huì)產(chǎn)生不同的時(shí)空關(guān)系。如何表征這些細(xì)微的時(shí)空變化并沒(méi)有一個(gè)很好的辦法。一個(gè)可行的辦法是采用多分辨率的方法[127]來(lái)表征和分析運(yùn)動(dòng),但計(jì)算量較大。

b)行為識(shí)別。目前人行為理解雖然取得一定的進(jìn)展,但行為理解研究還只局限于簡(jiǎn)單、固定視角且已切分好后的動(dòng)作,對(duì)不同動(dòng)作連續(xù)變化的長(zhǎng)運(yùn)動(dòng)序列的研究比較少[54],而且魯棒差,在噪聲、亮度和光照變化強(qiáng)烈以及視角變化的復(fù)雜環(huán)境中正確識(shí)別率大大降低。目前的行為識(shí)別方法如狀態(tài)轉(zhuǎn)移的圖模型方法和模板匹配方法通常在計(jì)算代價(jià)和運(yùn)動(dòng)識(shí)別的準(zhǔn)確度之間進(jìn)行折中,而且都是先訓(xùn)練后使用,只能識(shí)別訓(xùn)練中預(yù)先定義好的動(dòng)作,沒(méi)有自動(dòng)學(xué)習(xí)新行為的能力,缺乏考慮場(chǎng)景等背景知識(shí),很難根據(jù)目標(biāo)行為和場(chǎng)景的先驗(yàn)知識(shí)進(jìn)行自動(dòng)機(jī)器學(xué)習(xí)。例如HMMs等方法被看成一個(gè)黑盒,它不解釋某種行為是什么,只輸出一種未知行為與認(rèn)知的模式行為之間的概率。所以仍需要尋找和開(kāi)發(fā)新技術(shù),以利于在提高行為識(shí)別性能的同時(shí),又能有效地降低計(jì)算的復(fù)雜度。

c)高層行為與場(chǎng)景理解。行為本身具有很強(qiáng)的模糊性,同一行為、事件、狀態(tài)在不同的場(chǎng)景有著不同的概念,當(dāng)同一場(chǎng)景中有多個(gè)目標(biāo)出現(xiàn)時(shí)其行為模糊性更加明顯。所以,如何借助于先進(jìn)的視覺(jué)算法和人工智能等領(lǐng)域的成果,將現(xiàn)有的簡(jiǎn)單行為識(shí)別與理解推廣到更為復(fù)雜場(chǎng)景下的事件與場(chǎng)景理解,是將計(jì)算機(jī)視覺(jué)低、中層次的處理推向高層抽象思維的關(guān)鍵問(wèn)題。

d)行為理解與生物特征識(shí)別相結(jié)合。在智能安全監(jiān)控、智能人機(jī)交互中,行為理解與生物特征相結(jié)合顯得更加重要,不但要求系統(tǒng)能夠識(shí)別被監(jiān)控對(duì)象的當(dāng)前行為狀態(tài),而且能夠識(shí)別當(dāng)前被監(jiān)控的對(duì)象身份。生物特征技術(shù)識(shí)別如步態(tài)識(shí)別[50]、人臉識(shí)別等[128,129]給對(duì)象身份識(shí)別提供了一個(gè)很好的解決辦法。所以與生物特征識(shí)別相結(jié)合的行為理解將會(huì)是未來(lái)的研究方向之一。

e)算法評(píng)價(jià)。一般而言,魯棒性、準(zhǔn)確度、速度是人行為識(shí)別的三個(gè)基本要求,要求能夠快速準(zhǔn)確地識(shí)別運(yùn)動(dòng)且連續(xù)地工作,對(duì)于如噪聲、光照、天氣等因素的影響不能太敏感。但目前的識(shí)別方法更多關(guān)注的是識(shí)別率,對(duì)魯棒性和速度兩個(gè)指標(biāo)研究要求很少。另外,對(duì)行為識(shí)別方法沒(méi)有統(tǒng)一的視頻測(cè)試序列,大部分研究方法都是具體問(wèn)題具體分析,是用各自選擇的視頻序列進(jìn)行實(shí)驗(yàn)分析,無(wú)法對(duì)提出的算法進(jìn)行統(tǒng)一評(píng)價(jià)。

5 結(jié)束語(yǔ) 

人行為理解已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要的研究方向之一,在智能監(jiān)控、人機(jī)交互等方面的應(yīng)用前景引起了廣大科研人員的濃厚興趣。本文從特征選擇與運(yùn)動(dòng)表征、行為識(shí)別方法以及高層行為與場(chǎng)景理解三個(gè)方面總結(jié)了近年來(lái)人行為理解研究現(xiàn)狀和進(jìn)展。其征提取和運(yùn)動(dòng)表征可以歸結(jié)為行為建模,即如何描述行為動(dòng)作。目前的方法需要根據(jù)具體實(shí)際應(yīng)用情況,在動(dòng)作模型描述精確度和計(jì)算復(fù)雜度中折中,選擇適當(dāng)?shù)姆椒▉?lái)對(duì)行為建模。本文將行為識(shí)別算法細(xì)分成模板匹配方法、基于圖模型的方法等,同時(shí)對(duì)各種常用的數(shù)據(jù)匹配方法進(jìn)行逐一分析,并且討論了目前的高層行為與場(chǎng)景理解的研究發(fā)展與現(xiàn)狀。最后提出了目前行為理解存在的問(wèn)題和未來(lái)的發(fā)展趨勢(shì)。盡管當(dāng)前行為理解研究取得了一定的進(jìn)展,但依然處于萌芽階段,需要提出新的方法來(lái)解決相關(guān)問(wèn)題,提高行為理解的性能。

參考文獻(xiàn):

[[1]王亮,胡衛(wèi)明,譚鐵牛.人運(yùn)動(dòng)的視覺(jué)分析綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(3):225-237.

[2]JAIMES A,SEBE N.Multimodal human computer interaction:a survey[C]//Proc ofIEEE International Workshop on Human Computer Interaction in Conjunction with ICCV2005.Beijing:[s.n.],2005.

[3]NIJHOLT A.Meetings, gatherings, and events in smart environments[C]//Proc of ACM SIGGRAPH International Conference on Virtual Reality Continuum and Its Applications in Industry.2004:229-232.

[4]KITTLER J,BALLETTE M,CHRISTMAS W J,et al. Fusion of multiple cue detectors for automatic sports video annotation[C]//Proc of Workshop on Structural, Syntactic and Statistical Pattern Recognition.2002:597-606.

[5]TJONDRONEGORO D,CHEN Y P P,PHAM B.Content ased video indexing for sports applications using integrated multimodal approach[C]//Proc of the 13th Annual ACM International Conference on Multimedia.2005:1035-036.

[6]COLLINS R,LIPTON A,KANADE T, et-al.A system for video surveillance and monitoring: VSAM final report,CMU-RI-TR-00-12[R].[S.l.]:Carnegie Mellon University,2000.

[7]HARITAOGLU I,HARWOOD D,DAVIS L S.W4: realtime surveillance of people and their activities[J].IEEE Trans on PatternAnalysis and Machine Intelligence,2000,22(8):809-830.

[8]NAYLOR M,ATTWOOD C I.Annotated digital video for intelligent surveillance and optimized retrieval:final report[R].[S.l.]:ADVISOR Conortium,2003.

[9]HID[EB/OL].www-static.cc.gatech.edu/gvu/perception//projects/hid.

[10]REASON[EB/OL].cvg.cs.reading.ac.uk/.

[11]WREN C R,AZARBAYEJANI A,DARRELL T, et-al . Pfinder:real time tracking of the human body[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.

[12]BLAUENSTEINER P,KAMPEL M.Visual surveillance of an airport’s apron:an overview of the AVITRACK project[EB/OL].prip.tuwien.ac.at/~kampel/ papers/blauoeagm04.pdf.

[13][EB/OL].nlpr-web.ia.ac.cn/.

[14][EB/OL].research.microsoft.com/asia/group/vc/.

[15][EB/OL].cis.pku.edu.cn/introduction.htm.

[16]SHEIKH Y,SHAH M.Bayesian modeling of dynamic scenes for object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(11):1778-792.

[17]ELGAMMAL A,HARWOOD D,DAVIS L.Non arametric model for background subtraction[C]//Proc of the 6th European Conference on Computer Vision. Dublin,Ireland:[s.n.], 2000:751-67.

[18]左軍毅,潘泉,梁彥,等.基于模型切換的自適應(yīng)背景建模方法[J].自動(dòng)化學(xué)報(bào),2007,33(5):467-473.

[19]JAVED O,SHAH M.Tracking and object classification for automated surveillance[C]//Proc of the 7th European Conference on Computer Vision.Copenhagen:[s.n.],2002.

[20]CHEN Yun-qiang,RUI Yong,HUANG T S.Multicue HMMUKF for realtime contour tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(9):1525-529.

[21]YANG Tao,LI S Z,PAN Quan, et-al . Real time multiple objects tracking with occlusion handling in dynamic scenes[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.San Diego,CA:[s.n.],2005.

[22]WANG Yong zhong,LIANG Yan,ZHAO Chun hui, et-al. Adaptive multi cue kernel tracking[C]//Proc of IEEE International Conference on Multimedia & Expo.2007:1814-1817.

[23]李培華.一種改進(jìn)的Mean Shift跟蹤算法[J].自動(dòng)化學(xué)報(bào),2007,33(4):347-354.

[24]AGGARWAL J K,CAI Q.Human motion analysis: a review[C]//Proc of IEEE Nonrigid and Articulated Motion Workshop.Piscataway:IEEE Computer Society,1997:90-102.

[25]GAVRILA D M.The visual analysis of human movement: a survey[J].Computer Vision and Image Understanding,1999,73(1): 82-98.

[26]MOESLUND T B,GRANUM E.A survey of computer visionbased human motion capture[J].Computer Vision and Image Understanding,2001,81(3):231-268.

[27]HU Wei ming,TAN Tie niu,WANG Liang, et-al. A survey on visual surveillance of object motion and behaviors[J].IEEE Trans on Systems, Man, and CyberneticsPart C: Application and Reviews,2004,34(3):334-352.

[28]劉相濱,向堅(jiān)持,王勝春.人行為識(shí)別與理解研究探討[J].計(jì)算機(jī)與現(xiàn)代化,2004(12):1-5,27.

[29]BUXTONH,GONG Shao gang.Advanced visual surveillance using Bayesian networks[C]//Proc of the 5th IEEE International Confe rence on Computer Vision.Massachusetts:[s.n.],1995.

[30]BREMOND F,THONNAT M,ZUNIGA M.Video understanding framework for automatic behavior recognition[J].Behavior Research Methods Journal,2006,38(3):416-426.

[31]AMER A,DUBOIS E,MITICHE A.A realtime system for high level video representation:application to video surveillance[C]//Proc of SPIE International Symposium on Electronic Imaging, Conference on Visual Communication and Image Processing.Santa Clara:[s.n.],2003:530-541.

[32]JIN Ning,MOKHTARIAN F.Human motion recognition based on statistical shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2005.

[33]ELBASI E,ZUO Long,MEHROTRA K, et-al. Control charts approach for scenario recognition in video sequences[J].Turk J Elec Engin,2005,13:303-310.

[34]FUJIYOSHI H,LIPTON A J.Real time human motion analysis by image skeletonization[C]//Proc of the 4th IEEE Workshop on Applications of Computer Vision.1998:15-21.

[35]VEERARAGHAVAN A,ROYCHOWDHURY A K,CHELLAPPA R.Matching shape sequences in video with applications in human movement analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(12):1896-1909.

[36]CHEN H S,CHEN H T,CHEN Yiwen,et al.Human action recognition using star skeleton[C]//Proc of the 4th ACM International Workshop on Video Surveillance and Sensor Networks.2006.

[37]WANG Liang,SUTER D.Learning and matching of dynamic shape manifolds for human action recognition[J].IEEE Trans on Image Processing,2007,16(6):1646-1661.

[38]JU S X,BLACKY M J,YACOOBZ Y.Cardboard people:a paramete rized model of articulated image motion[C]//Proc of International Conference on Automatic Face and Gesture Recognition.1996:38-44.

[39]MITTAL A,ZHAO Liang,DAVIS L S.Human body pose estimation using silhouette shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2003:263-270.

[40]CORREAL P,CZYZ J,MARQUEST, et-al. Silhouette based probabilistic 2D human motion estimation for realtime applications[C]//Proc of International IEEE International Conference on Image Proce ssing.2005.

[41]POPPER,POEL M.Example based pose estimation in monocular images using compact Fourier descriptors,TRCTIT-05-49[R].Enschede:University of Twente, 2005.轉(zhuǎn)貼于

[42]MORI G,MALIK J.Recovering 3D human body configurations using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(7):1052-1062.

[43]CEDRASC,SHAH M.Motion based recognition:a survey[J].Image and Vision Computing,1995,13(2):129-155.

[44]BLACK M J,YACOOB Y,JU S X.Recognizing human motion using parameterized models of optical flow[M]//Motion based recognition.[S.l.]:Kluwer Academic Publishers,1997:245-269.

[45]YANG M H,AHUJA N.Recognizing hand gesture using motion trajectories[C]//Proc of IEEE International Conference on Computer Vision and Image Understanding.1999.

[46]EFROS A,BERG A,MORIG, et-al . Recognizing actions at a distance[C]//Proc of IEEE International Conference on Computer Vision.Nice,F(xiàn)rance:[s.n.],2003.

[47]ZHU Guangyu,XU Changsheng.Action recognition in broadcast tennis video[C]//Proc of the 18th International Conference on Pattern Recognition.2006.

[48]JOHANSSONG.Visual perception of biological motion and a model for its analysis[J].Perception and Psychophysics,1973,14(2):201-211.

[49]NIU Feng,ABDELMOTTALEB M.View invariant human activity recognition based on shape and motion features[C]//Proc of the 6th IEEE International Symposium on Multimedia Software Engineering.2004.

[50]WANG Liang,NING Hua zhong,TAN Tie niu, et-al. Fusion of static and dynamic body biometrics for gait recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2004,14(2):149-158.

[51]FANTIC,ZWLNIKMANORL,PERONAP.Hybrid models for human motion recognition[C]//Proc of IEEE Conference Computer and Pattern Recognition.2005:1166-1173.

[52]BOBICKAF,DAVISJW.The recognition of human movement using temporal templates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(3):257-267.

[53]MASOUDO,PAPANIKOLOPOULOS N.A method for human action recognition[J].Image and Vision Computing,2003,21:729-743.

[54]CAO Dongwei,MASOUDOT,BOLEY D.On line motion classification using support vector machines[C]//Proc of IEEE International Conference on Robotics and Automation.New Orleans:[s.n.],2004.

[55]LAPTEV I,LINDEBERG T.Local descriptors for spatio temporal recognition[C]//Proc of International Workshop on Spatial Coherence for Visual Motion Analysis.Prague:[s.n.],2004.

[56]DOLL’AR P,RABAUD V,COTTRELL G, et-al. Behavior recognition via sparse spatiotemporal features[C]//Proc of the 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Eva luation of Tracking and Surveillance.2005.

[57]BLANKM,GORELICKL,SHECHTMANE, et-al. Actions as space time shapes[C]//Proc of IEEE International Conference on Computer Vision.Beijing:[s.n.],2005.

[58]GAVRILA D,DAVIS L.3D modelbased tracking of human upper body movement: a multiview approach[ C]//Proc of International Symposium on Computer Vision.1995:253-258.

[59]ISARDM,BLAKEA.Condensation-conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.

[60]DEUTSCHER J,BLAKE A,REID I.Articulated body motion capture by annealed particle filtering[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1998.

[61]NIYOGI S,ADELSON E.Analyzing and recognizing walking figures in xyt[C]//Proc of Computer Vision and Pattern Recognition.1994:469-474.

[62]LONCARICS.A survey of shape analysis techniques[J].Pattern Recognition,1998,32(8):983-1001.

[63]DRYDENI L,MARDIA K V.Statistical shape analysis[M].[S.l.]:Wiley,1998.

[64]DRYEN I.Statistical shape analysis in high level vision[C]//Proc of IMA Workshop on Image Analysis and High Level Vision.2000.

[65]BELONGIE S,MALIK J,PUZICHA J.Shape matching and objects recognition using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(4):509-522.

[66]HU M K.Visual pattern recognition by moment invariants[J].IEEE Trans on Information Theory,1962,8(2):179-187.

[67]POPPE R,POEL M.Comparison of silhouette shape descriptors for example based human pose recovery[C]//Proc of the 7th IEEE International Conference on Automatic Face and Gesture Recognition.Southampton:[s.n.], 2006.

[68]VASWANI N,CHOWDHURY A R,CHELLAPPA R.Activity recognition using the dynamics of the configuration of interacting objects[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition .2003.

[69]LIU Che bin,AHUJA N.A model for dynamic shape and its applications[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2004.

[70]PARK S,TRIVEDI M M.A two stage multi view analysis framework for human activity and interactions[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.

[71]TYAGI A,POTAMIANOS G,DAVIS J W, et-al. Fusion of multiple camera views for kernel based 3D tracking[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.

[72]ZOUBA N,BREMOND F,THONNAT M, et-al. Multisensors analysis for everyday activity monitoring[C]//Proc of the 4th International Conference on Sciences of Electronic, Technologies of Information and Telecommunications.2007.

[73]BASHIRFI,KHOKHARA A, SCHONFELDD.Object trajectory based activity classification and recognition using hidden Markov models [J].IEEE Trans on Image Processing,2007,16(7):1912-1919.

[74]ROBERTSON N,REID I.A general method for human activity recognition in video[J].Computer Vision and Image Understanding,2006,104:232-248.

[75]YACOOB Y,BLACK M J.Parameterized modeling and recognition of activities[J].Computer Vision and Image Understanding,1999,73(2):232-247.

[76]CARLSSON S,SULLIVAN J.Action recognition by shape matching to key frames[C]//Proc ofWorkshop on Models Versus Exemplars in Computer Vision.2001.

[77]RABINER L,JUANG B.Fundamentals of speech recognition[M].[S.l.]:Prentice Hall,1993.

[78]MURPHY K P.An introduction to graphical models[R].2001.

[79]STENGEL M.Introduction to graphical Models,hidden Markov models and Bayesian networks[EB/OL].(2003-02-07).http:markusstengel.de/varions/uni/speech/tutorial.pdf.

[80]RABINER L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proc of the IEEE,1989,77(2):257-286.

[81]BREGLER C.Learning and recognizing human dynamics in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Puerto Rico:[s.n.],1997:568-574.

[82]YAMATO J,OHYA J,ISHII K.Recognizing human action in timesequential images using hidden Markov model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Champaign, Illinois:[s.n.],1992:379-385.

[83]TOREYIN B U,DEDEOGLU Y,CETIN A E.HMM based falling person detection using both audio and video[C]//Proc of IEEE International Workshop on HumanComputer Interaction.Beijing:[s.n.],2005.

[84]BRAND M,OLIVER N,PENTLAND A.Coupled hidden Markov models for complex action recognition[C]//Proc of IEEE Internatio nal Conference on Computer Vision and Pattern Recognition.1997:994-999.

[85]KRISTJANSSON T T,F(xiàn)REY B J,HUANGTS, et-al. Event coupled hidden Markov models[C]//Proc of IEEE International Conference on Multimedia and Expo.2000:385-388.

[86]OLIVER N,ROSARIO B,PENTLAND A.A Bayesian computer vision system for modeling human interactions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):831-843.

[87]FINES,SINGERY,TISHBYN.The hierarchical hidden Markov model: analysis and applications[J].Machine Learning,1998,32(1):41-62.

[88]NGUYEN N T,PHUNG D Q,VENKATESH S, et-al. Learning and detecting activities from movement trajectories using the hierachical hi dden Markov model[C]//Proc of Computer Vision and Pattern Re cognition. San Diego:[s.n.],2005:955-960.

[89]KAWANAKA D,OKATANI T,DEGUCHI K, et-al. Hierarchical HMM based recognition of human activity[C]//Proc of MVA.2005.

[90]BUI H H,VENKATESH S,WESTGA, et-al. Tracking and surveillance in widearea spatial environments using the abstract hidden Markov model[J].International Journal of Pattern Recognition and Artificial Intelligence,2001,15(1):177-195.

[91]GALATA A,JOHNSON N,HOGG D.Learning variable length Markov models of behavior[J].Computer Vision and Image Understan ding,2001,81(3):398-413.

[92]SMINCHISESCUC,KANAUJIA A,LI Zhiguo, et-al. Conditional models for contextual human motion recognition[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005.

[93]BRAND M,KETTNAKER V.Discovery and segmentation of activities in video[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):844-851.

[94]OLIVER N,HORVITZ E,GARG A.Layered representations for human activity recognition[C]//Proc of the 4th IEEE International Conference on Multimodal Interfaces.2002:3-8.

[95]ZHANG Dong,GATICAPEREZ D,BENGIOS, et-al. Modeling inpidual and group actions in meetings with layered HMMs[J].IEEE Trans on Multimedia,2006,8(3):509-520.

[96]MURPHYK.DynamicBayesiannet works:representation,inference and learning[D].Berkeley:University of California,2002.

[97]PARK S,AGGARWAL J K.Recognition of twoperson interactions using a hierarchical Bayesian network[C]//Proc of ACM SIGMM International Workshop on Video Surveillance.Berkeley:[s.n.],2003:65-76.

[98]DU You tian,CHEN Feng,XU Wenli, et-al. Interacting activity recognition using hierarchical durational state dynamic Bayesian network[C]//Proc of Pacific Rim Conference on Multimedia.2006:185-192.

[99]MOENNELOCCOZN,BREMONDF,THONNAT M.Recurrent Bayesian network for the recognition of human behaviours video[C]//Proc of ICVS. Graz:IEEE Computer Society Press,2003:68-77.

[100]GONG Shao gang,XIANG Tao.Recognition of group activities using dynamic probabilistic networks[C]//Proc of International Conference on Computer Vision.2003:742-749.

[101]LUO Ying,WU T D,HWANG J N.Object based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J].Computer Vision and Image Understanding,2003,92(2):196-216.

[102]MUNCASTER J,MA Yunqian.Activity recognition using dynamic Bayesian networks with automatic state selection[C]/Proc of IEEE Workshop on Motion and Video Computing.2007.

[103]BUCCOLIERI F,DISTANTE C,LEONE A.Human posture recognition using active contours and radial basis function neural network[C]//Proc of Conference on Advanced Video and Signal Based Surveillance.2005.

[104]HONG Pengyu,TURK M,HUANG T S.Gesture modeling and recognition using finite state machines[C]//Proc of IEEE Conference on Face and Gesture Recognition.2000.

[105]BADLER N.Temporal scene analysis:conceptual description of object movements,No.80[R].Toronto:University of Toronto,1975.

[106]INTILLE S,BOBICK A.Representation and visual recognition of complex, multiagent actions using belief networks,No.454[R].[S.l.]:MIT,1998.

[107]MORI T,SHIMOSAKA M,SATO T.SVMbased human action recognition and its remarkable motion features discovery algorithm[C]//Proc of International Symposium on Experimental Robotics.2003.

[108]LAPTEV S I,CAPUTO B.Recognizing human actions: a local SVM approach[C]//Proc ofInternational Conference on Pattern Recognition.2004.

[109]ZHU Guang yu,XU Chang sheng,GAO Wen, et-al. Action recognition in broadcast tennis video using optical flow and support vector machine[C]//Proc of ECCV.2006.

[110]CUTLER R,TURK M.Viewbased interpretation of real time optical flow for gesture recognition[C]//Proc of the 3rd International Confe rence on Face Gesture Recognition.1998.

[111]KOJIMA A,TAMURA T.Natural language description of human activities from video images based on concept hierarchy actions[J].International Journal of Computer Vision,2001,50:171184.

[112]HONGENGS,NEVATIA R.Multi agent event recognition[C]//Proc of International Conference on Computer Vision.2001:84-91.

[113]ROBERTSON N,REID I.Behavior understanding in video: a combined method[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:808-815.

[114]PYNADATHD V,WELLMAN M P.Generalized queries on probabilistic context free grammars[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(1):65-77.

[115]IVANOV Y,BOBICK A.Recognition of visual activities and interactions by stochastic parsing[J].IEEE Trans on Pattern Recognition and Machine Intelligence,2000,2(8):852-872.

[116]RYOOM S,AGGARWAL J K.Recognition of composite human activities through contextfree grammar based representation[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2006. 

[117]PYNADATHDV,WELLMANMP.Probabilistic state dependent grammars for plan recognition[C]//Proc of the 16th Conference on Uncertainty in Artificial Intelligence.San Francisco, CA:[s.n.], 2000:507-514.

[118]PARKS,AGGARWAL J K.Event semantics in twoperson interactions[C]//Proc of International Conference on Pattern Recognition.Cambridge:[s.n.],2004.

[119]NGUYEN N T,BUI H H,VENKATESHS, et-al. Recognising and monitoring highlevel behaviours in complex spatial environments[C]//Proc of IEEE Computer Vision and Pattern Recognition Canference.2003.

[120]KAMBHAMETTUC,GOLDGOFDB,TERZOPOULOSD,et-al.Nonrigid motion analysis[M]//Handbook of PRIP:computer vision.Orlando:Academic Press,1994.

[121]FERRYMAN J,BORGM,THIRDED, et-al. Automated scene understanding for airport aprons[C]//Proc of the 18th Australian Joint Conference on Artificial Intelligence.Sidney:SpringerVerlag,2005.

[122]BIRD N D,MASOUD O,PAPANIKOLOPOULOSNP, et-al. Detection of loitering inpiduals in public transportation areas[J].IEEE Trans on Intelligent Transportation Systems,2005,6(2):167-177.

[123]LUSi jun,ZHANG Jian,F(xiàn)ENGDD.Detecting unattended packages through human activity recognition and object association[J].Journal of the Pattern Recognition,2007,40(8):2173-2184. [124]OGALEA S,KARAPURKAR A,ALOMONOS Y.Viewinvariant modeling and recognition of human actions using grammars[C]//Proc of International Conference on Computer Vision.Beijing:[s.n.],2005.

[125]GATICAPEREZD,LATHOUDG,ODOBEZJM, et-al. Audio visual probabilistic tracking of multiple speakers in meetings[J]. IEEE Trans on Audio, Speech, and Language Processing,2007,15(2):601-616.

[126]CRISTANI M,BICEGOM,MURINOV.Audio visual event recognition in surveillance video sequences[J].IEEE Trans on Multime dia,2007,9(2):257-267.

[127]LI Hong,GREENSPAN M.Multi scale gesture recognition from time varying contours[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:236-243.

篇6

關(guān)鍵詞:蓄電池;智能視頻;分析

1 概述

在當(dāng)前的生產(chǎn)生活中,為保證重要設(shè)備和應(yīng)急使用時(shí)的不間斷供電和可靠安全運(yùn)行,蓄電池組作為交流失電或事故應(yīng)急時(shí)的唯一能量供給設(shè)備已廣泛應(yīng)用在各行各業(yè)的大型計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中,承擔(dān)了越來(lái)越重要的緊急電力備份任務(wù)。蓄電池組作為整個(gè)直流系統(tǒng)的后備電源,是整個(gè)電源系統(tǒng)的最后一道供電保障,當(dāng)交流電失電時(shí)蓄電池組一旦不能正常工作,整個(gè)直流系統(tǒng)將停運(yùn),會(huì)造成比較大的運(yùn)行事故。

當(dāng)前對(duì)于蓄電池管理和運(yùn)維的技術(shù)手段比較有限,變電站多分布于比較便遠(yuǎn)的地區(qū),且數(shù)量較多,現(xiàn)場(chǎng)巡檢人員成本較高。對(duì)于蓄電池的維護(hù),如在線核容實(shí)驗(yàn)要求步驟較多,一擔(dān)工作人員操作失敗,就會(huì)造成不可挽回的災(zāi)難。

現(xiàn)如今,模式識(shí)別和計(jì)算機(jī)視頻為基礎(chǔ)的視頻分析技術(shù)是比較成熟的,能夠做到在非人工分析的情況下準(zhǔn)確分辨、識(shí)別以及獲取重要目標(biāo)的有價(jià)值信息,并且這一技術(shù)在復(fù)雜繁多的視頻圖像中也能夠有效的運(yùn)用。根據(jù)目前視頻分析技術(shù)的優(yōu)點(diǎn),把這一技術(shù)應(yīng)用于蓄電池在線監(jiān)測(cè)系統(tǒng)。使其可以連續(xù)不斷的非人工分析監(jiān)控畫(huà)面,及時(shí)的向監(jiān)控人員反饋有價(jià)值的信息。對(duì)于現(xiàn)有監(jiān)控系統(tǒng)的作用與能力,不但可以更加有效的發(fā)揮而且極容易拓展,使得智能化無(wú)人值守變電站蓄電池遠(yuǎn)程巡檢變?yōu)楝F(xiàn)實(shí)。

2 相關(guān)背景研究

智能視頻分析技術(shù):智能視頻分析是以計(jì)算機(jī)視覺(jué)技術(shù)為基礎(chǔ)的,是人工智能研究領(lǐng)域的重要分支。這一技術(shù)可以有效的建立圖像和圖像描述之間的一一對(duì)應(yīng)關(guān)系,故其數(shù)學(xué)映射關(guān)系能夠使計(jì)算機(jī)簡(jiǎn)單有效地把復(fù)雜視頻畫(huà)面翻譯成數(shù)字圖像,然后進(jìn)行處理和分析?;谟?jì)算機(jī)圖像視覺(jué)分析技術(shù)的智能視頻分析技術(shù),可以將場(chǎng)景中背景和目標(biāo)分離進(jìn)而分析并追蹤在攝像機(jī)場(chǎng)景內(nèi)出現(xiàn)的目標(biāo)。根據(jù)智能視頻分析技術(shù)的原理,用戶想要充分利用視頻的內(nèi)容分析功能,就可以在每個(gè)攝像機(jī)的場(chǎng)景中預(yù)先設(shè)定一種報(bào)警規(guī)則,當(dāng)攝像機(jī)場(chǎng)景內(nèi)出現(xiàn)的目標(biāo)違反了預(yù)定義規(guī)則,系統(tǒng)會(huì)機(jī)械地發(fā)出報(bào)警,監(jiān)控工作站自動(dòng)收到報(bào)警信息并且發(fā)出警示信號(hào),反饋給監(jiān)控人員。用戶可以通過(guò)查看報(bào)警信息,實(shí)現(xiàn)報(bào)警的場(chǎng)景重組并采取相關(guān)措施。

視頻監(jiān)控中所提到的智能視頻內(nèi)容分析主要指的是非人工的分析和抽取視頻源中的有價(jià)值信息。假如把攝像機(jī)比喻為人的眼睛,而人的大腦就是智能視頻系統(tǒng)或設(shè)備。智能視頻技術(shù)有效的利用計(jì)算機(jī)可以高效處理數(shù)據(jù),高速分析視頻畫(huà)面中的海量數(shù)據(jù),把用戶不關(guān)心的信息剪裁掉,只把監(jiān)控人員所需要的有價(jià)值的信息反饋給監(jiān)控人員。

智能視頻分析主要目的是主動(dòng)監(jiān)控而不是被動(dòng)監(jiān)控――事前預(yù)警;實(shí)時(shí)監(jiān)視的任務(wù)交給計(jì)算機(jī)完成而不是人工――事中處理;目標(biāo)與事件可以在大量的視頻數(shù)據(jù)中實(shí)現(xiàn)快速搜索――事后取證。

3 技術(shù)要求及設(shè)計(jì)

3.1 技術(shù)要求

站端硬件部署主要實(shí)現(xiàn)以視頻智能算法的任務(wù)計(jì)算負(fù)荷,承擔(dān)系統(tǒng)整體運(yùn)行的穩(wěn)定性和實(shí)時(shí)傳輸性。因變電站現(xiàn)場(chǎng)環(huán)境復(fù)雜,為防止事故發(fā)生需要站端系統(tǒng)硬件處理能力和計(jì)算能力滿足視頻智能算法的所需資源負(fù)荷,針對(duì)智能算法的幾種數(shù)學(xué)模型類型如下。

3.1.1 單高斯背景模型法

對(duì)于室內(nèi)環(huán)境和沒(méi)有復(fù)雜背景的室外環(huán)境可以使用單高斯背景法。該模型的使用主要由兩大步驟組成:初始化背景圖像;更新背景圖像。

初始化背景圖像。讀取一段時(shí)間內(nèi)視頻序列圖像中每一像素的灰度值,計(jì)算其平均灰度值以及平均灰度值及像素灰度值的方差,然后構(gòu)成初始背景圖像的高斯分布圖,如式(1)所示:

(1)

簡(jiǎn)化如下:

(2)

(3)

更新背景圖像。如果場(chǎng)景變化的情況發(fā)生,則背景模型需要根據(jù)背景圖像的變化而發(fā)生相應(yīng)的變化。實(shí)時(shí)信息是由視頻序列提供的,而背景模型進(jìn)行更新的算法就是利用這一實(shí)時(shí)信息,如式(4)所示??梢员硎緯r(shí)刻的背景圖像和實(shí)時(shí)圖像,背景更新率是固定值,可以看出當(dāng)前對(duì)象對(duì)背景圖像的更新速率。

Bt(x,y)=?籽Bt-1(x,y)+?籽F(x,y) (4)

3.1.2 基于區(qū)域法跟蹤

模板匹配的目標(biāo)跟蹤算法,通過(guò)距離加權(quán)、模板更新及局部匹配的方法來(lái)提高不同光照條件及變形情況下的魯棒性,不再采用簡(jiǎn)單的平方差度量、相關(guān)匹配度量和相關(guān)系數(shù)度量,而是采用如式(5)所示的相似性度量函數(shù):

硬件平臺(tái)的技術(shù)與設(shè)備都應(yīng)當(dāng)使用目前國(guó)際上比較前沿而且成熟的技術(shù)和設(shè)備,這是考慮到了網(wǎng)絡(luò)的發(fā)展日新月異,所以硬件平臺(tái)技術(shù)與設(shè)備應(yīng)當(dāng)使得網(wǎng)絡(luò)環(huán)境非常開(kāi)放,網(wǎng)絡(luò)服務(wù)非常豐富,升級(jí)潛力大,擴(kuò)展性好。采用主干1000Mbps的以太網(wǎng)作為信息傳遞和數(shù)據(jù)傳輸?shù)拿襟w以及相應(yīng)的網(wǎng)絡(luò)設(shè)備、接口設(shè)備、應(yīng)用服務(wù)器、工作站和計(jì)算機(jī)終端設(shè)備等。

3.2 系統(tǒng)設(shè)計(jì)

本系統(tǒng)基于原有蓄電池在線監(jiān)測(cè)裝置總站系統(tǒng),把智能視頻圖像分析服務(wù)器添加在前端變電站,把報(bào)警管理平臺(tái)添加在中心運(yùn)行管理所。智能視頻圖像分析服務(wù)器不間斷的檢測(cè)前端變電站的視頻,報(bào)警管理平臺(tái)反饋報(bào)警信息給運(yùn)行管理所監(jiān)控人員,然后由監(jiān)控人員處理報(bào)警信息和現(xiàn)場(chǎng)證據(jù)收集。這樣組成的系統(tǒng)主要功能和實(shí)現(xiàn)方式如下:

變電站蓄電池室內(nèi)蓄電池運(yùn)行狀況檢測(cè)。一旦確認(rèn)蓄電池出現(xiàn)運(yùn)行故障時(shí),如冒煙、著火、爆炸,及時(shí)報(bào)警并上傳到監(jiān)控中心。

在變電站現(xiàn)場(chǎng)對(duì)蓄電池進(jìn)行在線實(shí)驗(yàn)時(shí),一旦確認(rèn)操作人員操作有誤,變電站現(xiàn)場(chǎng)報(bào)警燈亮起,并觸發(fā)警鈴,并上傳到監(jiān)控中心。

遠(yuǎn)程進(jìn)行蓄電池在線實(shí)驗(yàn)時(shí),實(shí)驗(yàn)過(guò)程中一旦確認(rèn)蓄電池出現(xiàn)運(yùn)行故障,會(huì)及時(shí)報(bào)警并上傳到監(jiān)控中心,且將視頻信息進(jìn)行存儲(chǔ),以備事后的故障追憶和事故分析。

本系統(tǒng)是建立在原有的電力變電站監(jiān)控系統(tǒng)基礎(chǔ)上的,只需要把原有的監(jiān)控?cái)z像機(jī)信號(hào)源分出2路,智能視頻分析服務(wù)器接受其中一路視頻,就是以現(xiàn)有監(jiān)控系統(tǒng)為基礎(chǔ)實(shí)現(xiàn)迅速、平滑的升級(jí)為智能視頻監(jiān)控系統(tǒng)。

在前端變電站,攝像機(jī)把視頻圖像輸入智能視頻分析服務(wù)器,使其可以根據(jù)人工設(shè)定的規(guī)則處理視頻圖像,并且對(duì)設(shè)定目標(biāo)完成非人工跟蹤和預(yù)告報(bào)警,當(dāng)發(fā)現(xiàn)目標(biāo)違反了預(yù)先設(shè)定的規(guī)則,立刻通過(guò)電力專網(wǎng)發(fā)出告警信息到運(yùn)行管理所。在管理所監(jiān)控人員收到報(bào)警信息的方式為:視頻彈出,聲音提示+文字提示。在原有平臺(tái)基礎(chǔ)上,新系統(tǒng)可以實(shí)現(xiàn)實(shí)時(shí)視頻瀏覽,同時(shí)實(shí)現(xiàn)了人員入侵實(shí)時(shí)報(bào)警及抓拍,使得現(xiàn)有系統(tǒng)報(bào)警的誤報(bào)率和準(zhǔn)確率較高的問(wèn)題得到有效的解決,并且由于報(bào)警發(fā)生時(shí)的實(shí)時(shí)抓圖所需要的存儲(chǔ)資源較小,從而使得監(jiān)控管理效率有了很大的提高。

本方案主要目的是提高變電站監(jiān)控系統(tǒng)的智能化水平,為蓄電池在線監(jiān)測(cè)提供準(zhǔn)確可靠的報(bào)警并盡量減少漏報(bào),并及時(shí)提供和保留報(bào)警現(xiàn)場(chǎng)證據(jù)。

3.3 系統(tǒng)實(shí)現(xiàn)

系統(tǒng)主要實(shí)現(xiàn)了以下業(yè)務(wù)功能:

前端檢測(cè)規(guī)則設(shè)置:主要為報(bào)警區(qū)域、觸發(fā)方式。

系統(tǒng)管理:設(shè)備管理、用戶管理、地圖管理、系統(tǒng)設(shè)置、布防設(shè)置。

報(bào)警視圖:電子地圖、報(bào)警視頻、報(bào)警圖片、報(bào)警類型。

報(bào)警歷史信息查詢:報(bào)警圖片、報(bào)警視頻、報(bào)警類型、報(bào)警時(shí)間。

地圖查看:查看布置點(diǎn)位、點(diǎn)位報(bào)警狀態(tài)。