紅外線監(jiān)控視頻或者是紅外線閉路電視的影像所存在的一個(gè)問(wèn)題就是,它難以利用這些圖像來(lái)識(shí)別出人物的身份。面部在紅外線成像中看起來(lái)會(huì)有很大的不同,要將紅外線圖像與他們正常外觀的圖像進(jìn)行匹配是一個(gè)尚未解決的挑戰(zhàn)。人們的外表在紅外線和可見(jiàn)光之間的關(guān)系是高度非線性的,紅外線其趨向于使用被動(dòng)傳感器來(lái)檢測(cè)人體所散發(fā)出來(lái)的光線,而不是人體所反射的光線。
如今,德國(guó)卡爾斯魯厄理工學(xué)院的 Saquib Sarfraz 和 Rainer Stiefelhagen 表示,他們已經(jīng)研究出了如何建立中、遠(yuǎn)程紅外面部圖像,與對(duì)應(yīng)的可見(jiàn)光圖像的關(guān)系。他們已經(jīng)完美的教導(dǎo)神經(jīng)網(wǎng)絡(luò)來(lái)完成所有的工作。
面部散發(fā)紅外線的方式,與它反射光線的方式完全不同。散發(fā)的紅外線與空氣的溫度和皮膚的溫度十分相關(guān),而這些又取決于人體的活動(dòng)水平,以及人體是否有發(fā)燒等情況的影響。
還有一個(gè)問(wèn)題使得紅外線圖像難以辨認(rèn)面部:可見(jiàn)光圖像具有更高的解析度,而遠(yuǎn)紅外線圖像則低得多,這是由攝像機(jī)的性質(zhì)而定的。總之,這些因素使得匹配紅外線圖像與對(duì)應(yīng)的可見(jiàn)光圖像變得很難。
但是近年來(lái)深層神經(jīng)網(wǎng)絡(luò)在應(yīng)對(duì)各種復(fù)雜問(wèn)題的改善上,給予了 Sarfraz 和 Stiefelhagen 啟發(fā)。為什么不訓(xùn)練神經(jīng)網(wǎng)絡(luò)通過(guò)觀察紅外線版本的圖像,從而識(shí)別可見(jiàn)光的面部?近年來(lái),兩個(gè)重要因素的結(jié)合使得神經(jīng)網(wǎng)絡(luò)變得更加強(qiáng)大。
一是更好地了解如何建立和調(diào)整網(wǎng)絡(luò)來(lái)執(zhí)行任務(wù),這項(xiàng)技術(shù)領(lǐng)導(dǎo)了深度神經(jīng)網(wǎng)絡(luò)的創(chuàng)建。
二是大型注釋的數(shù)據(jù)集的可用性越來(lái)越高,它們可被用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
將紅外線與可見(jiàn)光圖像進(jìn)行比較的數(shù)據(jù)集很難得到,不過(guò) Sarfraz 和 Stiefelhagen 還是從圣母大學(xué)那得到了可用的數(shù)據(jù):來(lái)自于82人的4585張照片,有分辨率為1600×1200的可見(jiàn)光圖像,和分辨率為312 x 239的遠(yuǎn)紅外圖像。該數(shù)據(jù)集包含了人們面帶微笑、大笑,以及自然表情的圖像,并以兩種不同的光線條件來(lái)捕捉每天人們的外觀變化。
之后,他們將圖像分割成像素為20×20的相互重疊的各部分,從而擴(kuò)充數(shù)據(jù)庫(kù)。最后,Sarfraz 和 Stiefelhagen 使用前41個(gè)人的圖像來(lái)訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò),并用另外41個(gè)人的圖像進(jìn)行測(cè)試。
從測(cè)試結(jié)果來(lái)看,神經(jīng)網(wǎng)絡(luò)能夠在短短35毫秒內(nèi),完成熱成像圖與其對(duì)應(yīng)的可見(jiàn)光圖像的匹配。他們表示:“匹配速度非常得快,能夠以28fps的刷新率實(shí)時(shí)運(yùn)行。”
但這并不意味著它已趨于完美。測(cè)試結(jié)果表明,最好的結(jié)果其精度也只是剛剛超過(guò)80%,而一對(duì)一的比較精度僅有55%。更高的精度顯然只有更大的數(shù)據(jù)集和更強(qiáng)大的網(wǎng)絡(luò)才能辦到,但因此其成本也會(huì)更高。不過(guò)對(duì)這項(xiàng)技術(shù)感興趣的客戶,很可能是那些涉及到安全相關(guān)的軍事、執(zhí)法機(jī)構(gòu)和政府等,它們并不缺錢(qián)。