新(xīn)基建成為(wèi)科(kē)技(jì )領域的焦點話題。作(zuò)為(wèi)新(xīn)基建的重要内容,人工(gōng)智能(néng)的發展愈發受到人們關注,不過與基礎設施相比,人工(gōng)智能(néng)很(hěn)難将其具(jù)象化而出。但伴随圖像處理(lǐ)技(jì )術、光學(xué)成像技(jì )術、傳感器技(jì )術等的發展,以及算法的不斷優化,使人工(gōng)智能(néng)的兩大分(fēn)支(自然語言處理(lǐ)與機器視覺)擁有(yǒu)了感知物(wù)理(lǐ)世界的能(néng)力,作(zuò)為(wèi)圖像圖形領域中(zhōng)的重點内容之一,遙感應用(yòng)行業也站在了産(chǎn)業智能(néng)化的風口。
圖來源網絡
1950年,科(kē)學(xué)家Alan Turing提出使用(yòng)機器僞裝(zhuāng)人類對話的能(néng)力來衡量機器的智能(néng)水平,掀起了人工(gōng)智能(néng)(Artificial Intelligence,AI)的浪潮。概括而言,AI是研究、開發用(yòng)于模拟、延伸和擴展人的智能(néng)的理(lǐ)論、方法、技(jì )術及應用(yòng)系統的一門新(xīn)技(jì )術科(kē)學(xué),涉及到數學(xué)、語言學(xué)、神經科(kē)學(xué)、心理(lǐ)學(xué)、物(wù)理(lǐ)學(xué)、認知科(kē)學(xué)、計算機科(kē)學(xué)等學(xué)科(kē)。黨的十八大以來,黨和國(guó)家高度重視和大力扶持新(xīn)一代信息技(jì )術發展,移動互聯網、雲計算、大數據、物(wù)聯網等技(jì )術加速交叉融合發展,有(yǒu)效地推動人工(gōng)智能(néng)技(jì )術快速成熟、産(chǎn)業快速發展和經濟社會領域廣泛應用(yòng)。2021年3月5日,“十四五規劃”和2035年遠(yuǎn)景目标綱要草(cǎo)案提請十三屆全國(guó)人大四次會議審查。其中(zhōng),将新(xīn)一代人工(gōng)智能(néng)中(zhōng)的“前沿基礎理(lǐ)論突破、專用(yòng)芯片研發、深度學(xué)習框架等開源算法平台構建、學(xué)習推理(lǐ)與決策、圖像圖形、語音視頻、自然語言識别處理(lǐ)等領域的創新(xīn)”作(zuò)為(wèi)了一項需要重點突破的科(kē)技(jì )前沿領域。作(zuò)為(wèi)圖像圖形領域中(zhōng)的重點内容之一,遙感應用(yòng)行業站在了産(chǎn)業智能(néng)化的風口,AI與大數據技(jì )術賦能(néng)于遙感應用(yòng),也成為(wèi)了行業以及學(xué)術界廣泛關注和研究的課題,而如何利用(yòng)人工(gōng)智能(néng)手段輔助挖掘這些豐富的信息也成為(wèi)了遙感圖像分(fēn)析與理(lǐ)解的重要内容。
以深度學(xué)習為(wèi)主要應用(yòng)的AI技(jì )術為(wèi)遙感影像解譯提供了新(xīn)的方法,适用(yòng)于遙感大數據的自動化處理(lǐ)和數據挖掘,其能(néng)夠深度地挖掘遙感影像中(zhōng)的有(yǒu)效信息,從而快速賦能(néng)于行業應用(yòng)。人工(gōng)智能(néng)發展的三要素包括算力、算法和數據,而深度學(xué)習本質(zhì)上是采用(yòng)監督學(xué)習的方式,通過大量樣本數據來學(xué)習目标的本質(zhì)特征,并據此對未知數據進行預測判别,其基礎性的研究主要分(fēn)為(wèi)兩大方面,一方面是樣本庫的設計與标注,另一方面是網絡結構與模型設計。
遙感影像樣本庫的設計與構建
在樣本庫的設計與标注研究中(zhōng),在計算機視覺領域經過多(duō)年的發展已經構建了以ImageNet為(wèi)代表的衆多(duō)自然圖像樣本庫,并多(duō)次作(zuò)為(wèi)深度模型訓練與驗證的數據集。樣本庫的數量和質(zhì)量作(zuò)為(wèi)深度學(xué)習模型成功應用(yòng)的重要決定因素,其标注應能(néng)夠客觀真實的反映實際地物(wù)情況,在标注過程中(zhōng)可(kě)以遵循以下原則:
(1)最大最小(xiǎo)範圍原則:标注的目标區(qū)域要盡量大到包含目标區(qū)域的邊界,但也要小(xiǎo)到除了目标區(qū)域邊界外,不包含其它物(wù)體(tǐ)特征;
(2)甯無不錯的原則:錯誤的标簽對于模型訓練的過程是很(hěn)大的擾動,會導緻模型訓練難以收斂,最終導緻模型的泛化性極差、難以拟合等問題;
(3)所标即所見原則:标注過程中(zhōng)隻标注從視覺上确定的目标物(wù)體(tǐ),對于有(yǒu)遮擋或者無法分(fēn)辨的地物(wù)不進行标注,也即是不添加主觀想象力和先驗知識。
在具(jù)體(tǐ)的遙感影像應用(yòng)上,由于受到尺度效應、成像條件、地表場景等衆多(duō)因素的影響,使得遙感圖像包含了分(fēn)布複雜的多(duō)種地物(wù)類型。在建立遙感圖像樣本庫時,學(xué)者們提出了不僅需要考慮更多(duō)的地物(wù)屬性特征,既标注單一地物(wù),也應标注其特征的存在背景和關聯數據,也即是構建面向對象的遙感知識庫,為(wèi)深度學(xué)習模型提供包括基礎圖形、對應的屬性類别、位置信息以及地物(wù)對象的物(wù)理(lǐ)和社會特征等輔助信息。目前,研究者們已經構建了大量用(yòng)于目标探測和圖像分(fēn)類的标記樣本庫,如針對車(chē)輛識别的TAS數據集(圖像數30,圖像大小(xiǎo)792×636)、OIRDS數據集(圖像數900,圖像大小(xiǎo)256~640×256~640)、DLR 3K Vehicle(圖像數20,圖像大小(xiǎo)5616×3744);針對飛機識别的UCAS-AOD數據集(圖像數1510,圖像大小(xiǎo)1280×659);針對建築物(wù)識别的SZTAKI-INRIA數據集(圖像數9,圖像大小(xiǎo)800×800);針對船隻識别的HRSC2016數據集(圖像數1070,圖像大小(xiǎo)>1000×600);針對多(duō)種地物(wù)提取的NWPUVHR-10數據集(圖像數800,圖像大小(xiǎo)1000×1000)、VEDAI數據集(圖像數1210,圖像大小(xiǎo)1024×1024)、ROSD數據集(圖像數976,圖像大小(xiǎo)1280×1280)以及DOTA-v1.5數據集(圖像數2806,圖像大小(xiǎo)800~4000×800~4000)等。
面向遙感解譯的深度學(xué)習網絡結構與模型設計
在網絡結構與模型設計研究中(zhōng),應用(yòng)在遙感影像分(fēn)類方面的深度學(xué)習模型主要有(yǒu)深度置信網絡
(Deep BeliefNetwork,DBN)、卷積神經網絡(Convolutional Neural Network,CNN)和棧式自編碼器網絡(Stacked Auto-encoder Network,SAE),各方法的原理(lǐ)、分(fēn)類效果以及優缺點如表1所示。
表1 不同深度學(xué)習方法的特征比較
1998年,Lecun總結完善了經典卷積神經網絡在手寫體(tǐ)數字識别中(zhōng)的應用(yòng),作(zuò)為(wèi)深度學(xué)習方法中(zhōng)的典型代表,CNN可(kě)以接受圖像作(zuò)為(wèi)輸入數據,避免了傳統識别算法中(zhōng)複雜的特征提取和數據重建過程。此外,CNN采用(yòng)卷積和權值共享訓練策略,極大地降低了模型複雜度,節省了訓練開支,且能(néng)夠識别圖像的空間特征。更重要的是,CNN具(jù)有(yǒu)局部連接和空間下采樣特點,使得CNN具(jù)有(yǒu)一定的平移、尺度和扭曲不變性,被廣泛的應用(yòng)于圖像的目标識别和分(fēn)類中(zhōng)。CNN模型通常由卷積層、池化層和全連接層組合而成:
(1)卷積層。卷積層是CNN的核心,目的是對輸入數據進行特征提取。在卷積層中(zhōng),使用(yòng)一組濾波器(即卷積核),與前一層中(zhōng)位置鄰接區(qū)域内的元素進行卷積操作(zuò),并使用(yòng)非線(xiàn)性激活函數進行映射,獲取圖像的卷積特征;
(2)池化層。在卷積層進行特征提取後,采用(yòng)空間池化方法對卷積特征圖進行下采樣,用(yòng)于特征選擇和空間降維。池化層可(kě)以有(yǒu)效地降低模型複雜度,節省計算成本。常用(yòng)的池化方法包括極大值池化和均值池化;
(3)全連接層。全連接層是将當前網絡層中(zhōng)的每個節點與上一層的所有(yǒu)節點相連,可(kě)以整合卷積層或者池化層中(zhōng)提取到的特征。
2012年,Hinton研究組構建了深度學(xué)習模型AlexNet并在ImageNet圖像識别中(zhōng)一舉奪冠,其采用(yòng)ReLU激活函數,從根本上解決了梯度消失問題,并采用(yòng)GPU極大的提高了模型的運算速度。在此後的幾年中(zhōng),分(fēn)别湧現出了諸如VGGNet、ResNet、GooleNet、MobileNet、DenseNet等特征自動提取網絡,并且在數據集測試上獲得了優秀的提取結果。近年來,深度學(xué)習網絡模型不斷完善,在圖像識别和信息提取方面取得了突破性進展,在很(hěn)多(duō)任務(wù)上的精(jīng)度已然超過人工(gōng)識别精(jīng)度。深度學(xué)習在計算機視覺領域的巨大成功為(wèi)遙感大數據信息智能(néng)提取提供了重要機遇,然而,遙感影像具(jù)有(yǒu)其專業化特征,如遙感影像中(zhōng)的目标存在方向任意性、尺度多(duō)樣性、幾何形變和密集排列等特點,因此要求基于CNN模型的改進能(néng)夠結合遙感圖像目标的特點,有(yǒu)效地實現目标檢測。遙感學(xué)界的學(xué)者和從業者也對不同的深度學(xué)習模型進行了修改,将其應用(yòng)于遙感影像解譯中(zhōng)。例如,針對遙感圖像目标方向的不确定性,可(kě)以提取旋轉不變特征實現水平框目标檢測,也可(kě)以設計能(néng)夠準确識别目标角度的方法來實現有(yǒu)向邊框目标檢測;針對目标的尺度差異性,采用(yòng)多(duō)尺度方法對網絡結構進行改進,實現多(duō)尺度目标檢測;針對遙感目标的密集排列問題,采用(yòng)自适應方法,實現密集目标檢測。此外,針對遙感影像存在紋理(lǐ)特征複雜的特點,為(wèi)提高分(fēn)類精(jīng)度,現有(yǒu)研究通常基于兩個方向:一方面通過增加網絡層數,訓練更深的神經網絡來提取深層次的的語義信息;另一方面則采用(yòng)結合更高效模塊提高網絡的特征提取能(néng)力。深度學(xué)習模型在遙感影像解譯中(zhōng)已經産(chǎn)生了大量的應用(yòng)并獲得了優秀的解譯效果,其具(jù)有(yǒu)以下優勢:不需要人工(gōng)設計特征,具(jù)有(yǒu)很(hěn)強的特征學(xué)習和表達能(néng)力,可(kě)以直接從數據中(zhōng)學(xué)習更加抽象且含有(yǒu)語義信息的高層特征,模型預測性能(néng)高,具(jù)有(yǒu)較好的遷移學(xué)習能(néng)力。
遙感智能(néng)視覺平台的構建
目前,深度學(xué)習技(jì )術雖然在遙感影像解譯中(zhōng)取得了顯著的成果,但仍然存在着一些問題,如網絡模型大多(duō)依賴經驗設計;需要大量有(yǒu)标注的數據;網絡模型複雜度高,容易出現局部最優解或過拟合問題;訓練耗時,計算量大;存儲和計算資源要求高,通常需要GPU平台;模型的超參數選擇多(duō)依賴于經驗和技(jì )巧。鑒于此,測繪地理(lǐ)信息行業湧現出類似中(zhōng)科(kē)北緯(北京)科(kē)技(jì )有(yǒu)限公(gōng)司這樣的企業,以中(zhōng)科(kē)北緯為(wèi)例,他(tā)們開發了面向用(yòng)戶的遙感智能(néng)視覺平台——天樞。在整體(tǐ)架構上,依托于國(guó)際領先的國(guó)産(chǎn)開源框架飛槳(PaddlePaddle),打造出了影像智能(néng)解譯閉環鏈路,如圖1所示。在對遙感數據進行挖掘提取過程中(zhōng),經過大規模叠代優化,能(néng)夠避免季相變化、衛星型号對解譯效果造成的影響,地塊分(fēn)割準确率達到90%以上,可(kě)對四個像素以上的影像變化進行提取和輸出。此外,遙感智能(néng)視覺平台集成了改變大小(xiǎo)、标準化、随機翻轉、局部随機放大、随機高斯模糊、随機銳化、波段數量降維、添加NDVI通道、添加NDWI通道、添加NDBI通道等17種方法,重新(xīn)定制并優化了圖像增強方案。
圖1 影像智能(néng)解譯閉環鏈路
在功能(néng)上,中(zhōng)科(kē)北緯公(gōng)司開發的天樞遙感智能(néng)視覺平台采用(yòng)B/S結構開發,面向非專業化用(yòng)戶設計了友好的操作(zuò)界面,提供了針對遙感數據的三大功能(néng)模塊:斜框檢測、地塊分(fēn)割和變化檢測,如圖2所示。該平台構建了一體(tǐ)化的遙感影像特征自動提取流程,包括遙感影像預處理(lǐ)、模型訓練、模型下發和使用(yòng)、精(jīng)度評價、結果後處理(lǐ)等過程。在常規任務(wù)上,如建築物(wù)、水體(tǐ)、道路等特征的提取以及變化檢測,無需用(yòng)戶過多(duō)幹預,模型能(néng)夠輸出高精(jīng)度的地物(wù)提取結果;此外,産(chǎn)品具(jù)有(yǒu)可(kě)擴展性,也即是用(yòng)戶可(kě)以按需訓練适應特定場景的模型,可(kě)用(yòng)于不同尺度、不同分(fēn)辨率、不同時期的遙感影像特征的提取及變化檢測。
圖2 遙感智能(néng)視覺平台界面
可(kě)以預見,算法、算力和海量數據的沉澱使得AI與遙感應用(yòng)的結合正當時。“可(kě)感知、能(néng)學(xué)習、易擴展” 的遙感解譯平台,能(néng)夠實現多(duō)源影像數據中(zhōng)的變化特征及建築、林地、水域、道路、農作(zuò)物(wù)等多(duō)種目标信息的智能(néng)化解譯,一定會受到泛在自然資源應用(yòng)和管理(lǐ)的歡迎。
未來十年,遙感是否可(kě)以深刻地影響社會發展,切實解決了生産(chǎn)生活中(zhōng)的問題,兼具(jù)普适性和經濟價值,其關鍵點在于對遙感數據的解譯和應用(yòng)。科(kē)技(jì )進步給人類帶來的不止是效率的提升、生活質(zhì)量的改善,更将為(wèi)人類帶來别樣的認識世界的方式和視角。當腳下的地球被源源不斷地讀取進計算中(zhōng)心,一個全新(xīn)的認知維度緩緩在我們面前展開,迎來新(xīn)一輪的技(jì )術革新(xīn)。人工(gōng)智能(néng)技(jì )術的出現,恰逢其時,正如吳一戎院士所說,将AI賦能(néng)遙感技(jì )術,貫穿海量多(duō)源異構數據從處理(lǐ)分(fēn)析到共享應用(yòng)的全鏈路,将能(néng)夠大幅度縮短遙感圖像的解譯周期,催生一些新(xīn)的遙感應用(yòng),并促進遙感數據服務(wù)模式的變革,從而共創遙感新(xīn)時代。
圖文(wén) / 嶽漢秋