近年來,全國(guó)多(duō)個省份地區(qū)已經開始着手建設屬于自己的遙感樣本庫,這一良好的趨勢表明了各方政府正在積極響應并落實關于推廣“人工(gōng)智能(néng)”這一新(xīn)興技(jì )術的科(kē)技(jì )政策,也肯定了國(guó)家對于發展AI技(jì )術與各行各業深度融合的決心和願景。
利用(yòng)深度學(xué)習技(jì )術進行遙感圖像智能(néng)解譯已成為(wèi)當前自然資源部在面臨國(guó)土問題作(zuò)出精(jīng)準快速決策的重要手段。深度學(xué)習技(jì )術當前主要依賴“監督學(xué)習”分(fēn)類方式,即必須有(yǒu)海量樣本數據參與訓練,最終的模型也就是從這些樣本蘊含的信息中(zhōng)進行的抽象結果。因此,如何構建一套完整、穩定、合理(lǐ)的樣本庫體(tǐ)系成為(wèi)模型訓練前期最重要的任務(wù)和難題。
由于遙感數據的複雜性及遙感業務(wù)成果需求的多(duō)樣性,遙感樣本庫的建成往往需要綜合考慮多(duō)方面因素,究其本質(zhì)也就是緻力于平衡“AI算法、遙感影像特性、業務(wù)規則、标注成本及效率”幾者之間的沖突。因此,這對于建設者提出了較高的要求,需要其對AI基本原理(lǐ)、遙感專業知識、項目管理(lǐ)能(néng)力等要有(yǒu)一個基本的掌握。我們一直倡導“授人以漁”的理(lǐ)念,從解決實際問題的角度出發,盡管全國(guó)不同的地區(qū)對于遙感解譯業務(wù)關注的重點有(yǒu)所區(qū)别,實施方案也都别具(jù)一格,但是“萬變不離其宗”,絕大多(duō)數AI算法對于訓練樣本的質(zhì)量追求都是一緻的,隻要掌握樣本庫建設的底層邏輯,在面對各種複雜的業務(wù)場景時,也能(néng)夠形成一套适用(yòng)于自身業務(wù)的獨特且合理(lǐ)的建設方案。下面根據作(zuò)者自身的理(lǐ)解和經驗列舉出樣本庫建設的幾個關鍵環節:
明确分(fēn)類體(tǐ)系
明确分(fēn)類體(tǐ)系是樣本庫建設工(gōng)作(zuò)的基礎,其主要目的是标準化 “人”的認知思維。
制定标準規則
制定出既适合AI算法原理(lǐ)又(yòu)适合業務(wù)需求的标注規則,其主要目的是标準化“人”的作(zuò)業成果質(zhì)量,讓“計算機”清晰地知道我們需要的是什麽。
樣本選擇
在有(yǒu)限的樣本數量之内,如果有(yǒu)對特征分(fēn)析處理(lǐ)的意識有(yǒu)助于提高模型的泛化能(néng)力。
樣本庫管理(lǐ)
制定出一套能(néng)容納所有(yǒu)遙感業務(wù)類型的樣本庫管理(lǐ)系統或方案,其主要目的是有(yǒu)序積存海量遙感數據,便于未來發揮潛在價值。
01.
明确分(fēn)類體(tǐ)系 CLASSIFICATION SYSTEM
“分(fēn)類體(tǐ)系”的概念官方定義比較抽象,如果思維深度不夠,很(hěn)難對它有(yǒu)一個全面的認知。簡單來說,“分(fēn)類體(tǐ)系”可(kě)以理(lǐ)解為(wèi)是針對于體(tǐ)系下的所有(yǒu)個體(tǐ),按照某種特定的規律(如根據視覺、觸覺、聽覺等感官能(néng)力...)發現其可(kě)區(qū)分(fēn)、可(kě)信的特征差異,從而進行分(fēn)類。不同的分(fēn)類體(tǐ)系對于同一個體(tǐ)可(kě)能(néng)會有(yǒu)不同的定義。 為(wèi)什麽說AI和遙感圖像具(jù)有(yǒu)天然的耦合性?因為(wèi)不管是AI視覺算法還是傳統遙感圖像解譯,都是通過視覺能(néng)力的特性尋找要素的特征差異來實現分(fēn)類。分(fēn)類體(tǐ)系内的類别越多(duō)、區(qū)分(fēn)度越低,對應樣本數量就需要越多(duō)、模型訓練難度就會越大,所以如何編制出一套簡潔自洽、貼合業務(wù)的分(fēn)類體(tǐ)系,是樣本庫建設中(zhōng)最重要的工(gōng)作(zuò)之一。而建設者需要“拉齊認知”,也就是需要将自身知識經驗的無序狀态變為(wèi)經過分(fēn)類的有(yǒu)序狀态,以完成标準統一的認知過程。
遙感業務(wù)場景多(duō)樣,不同的業務(wù)場景對于最終的成果需求也會有(yǒu)所不同,建設者需對業務(wù)規則充分(fēn)了解,使之與AI算法有(yǒu)機結合,從而明确出适合業務(wù)的分(fēn)類體(tǐ)系。遙感行業常見的分(fēn)類體(tǐ)系有(yǒu)地理(lǐ)國(guó)情普查分(fēn)類體(tǐ)系和三次國(guó)土調查分(fēn)類體(tǐ)系,作(zuò)為(wèi)兩項重大的國(guó)情國(guó)力調查,目的都是為(wèi)了查清我國(guó)自然資源家底,并且年度地理(lǐ)國(guó)情監測調查和年度國(guó)土變更調查分(fēn)别是這兩項重大調查工(gōng)作(zuò)的年度信息更新(xīn)手段,确保我國(guó)的自然資源數據的實時性。這兩項調查工(gōng)作(zuò)都對土地利用(yòng)情況進行了分(fēn)類,但是兩者在側重點上各有(yǒu)不同:
地理(lǐ)國(guó)情普查側重于反映土地的植被覆蓋及使用(yòng)情況,從土地本身的自然特征着手,其分(fēn)類偏向于自然屬性;
第三次國(guó)土調查(土地利用(yòng)現狀)側重于從管理(lǐ)的屬性出發,目的是真實的反映土地的利用(yòng)狀況及潛力,其分(fēn)類偏向于社會經濟屬性。
兩種分(fēn)類體(tǐ)系的異同分(fēn)析可(kě)參考【地理(lǐ)國(guó)情普查與三調數據的共享探析】
當然,有(yǒu)的業務(wù)規則可(kě)能(néng)會将兩種分(fēn)類體(tǐ)系結合使用(yòng),或者在此基礎上延伸出其它變種分(fēn)類體(tǐ)系。究其根本,不管使用(yòng)何種分(fēn)類體(tǐ)系,都須要滿足這樣幾點原則:
Ⅰ.所有(yǒu)類别能(néng)通過目視區(qū)分(fēn),不摻雜人為(wèi)主觀判斷力和經驗;
Ⅱ.分(fēn)類體(tǐ)系應自洽、客觀,避免“同物(wù)異類”情形;
Ⅲ.分(fēn)類體(tǐ)系應涵蓋所有(yǒu)業務(wù)關注的地類,凡能(néng)精(jīng)簡、歸并的地類盡量歸并;
Ⅳ.分(fēn)類體(tǐ)系一旦确定,盡可(kě)能(néng)不改、小(xiǎo)改。
02.
制定标注規則 STANDARD RULES
沒有(yǒu)明确分(fēn)類體(tǐ)系的業務(wù)規則都是“耍流氓”,分(fēn)類體(tǐ)系是業務(wù)規則的根基。明确分(fēn)類體(tǐ)系後,我們再來談談業務(wù)規則。不同的遙感業務(wù)對于其規則的制定也有(yǒu)所不同,比如土地衛片執法、國(guó)土變更調查、重要生态空間人類活動變化監測、城市違建監測等。大多(duō)數情況下,最終制定出的标注規則=AI原則+業務(wù)規則(+特殊場景說明),即站在AI算法的角度先約束幾條原則,再按照業務(wù)規則的作(zuò)業要求去标注,有(yǒu)些複雜的業務(wù)場景下還需要補充一些特殊說明,防止邏輯混亂。要遵循的AI原則主要有(yǒu)如下幾點:
Ⅰ.所見即所得
标注員僅通過目視影像标注,不參考影像之外的其他(tā)數據(如三調數據庫),不摻雜人為(wèi)主觀的經驗和知識标注。
Ⅱ.統一可(kě)區(qū)分(fēn)
标注員之間應形成對規則統一的理(lǐ)解和認知,避免相互沖突;标注員自身時刻也要統一一套作(zuò)業準則,避免自相矛盾。
Ⅲ.标簽完整性
用(yòng)作(zuò)訓練的影像,盡量避免 “漏标注”和“錯标注”,以免降低模型效果。
Ⅳ.變化可(kě)逆性
所有(yǒu)變化圖斑可(kě)逆,不區(qū)分(fēn)前後影像類别先後順序,如“建築變耕地”和“耕地變建築”可(kě)理(lǐ)解為(wèi)是同一類變化。
03.
樣本選擇 SAMPLE SELECTION
樣本的選擇一定程度上關乎着樣本标注的成本和最終模型的效果,按照一個正确的思路去進行樣本的選擇,是整個樣本庫建設工(gōng)作(zuò)的基礎保障。關于樣本的選擇,如不考慮影像獲取的難度和矢量采集成本,在适合标注規則的前提下本着“越多(duō)越好”的原則;如果考慮成本,關于樣本的選擇可(kě)遵循以下原則:
Ⅰ.充分(fēn)分(fēn)析業務(wù)場景範圍内的影像各維度特征,優先選擇強代表性的樣本;
(影像維度包括:傳感器、時空分(fēn)辨率、地區(qū)、地形地貌等等,強代表性指的是最貼合實際業務(wù)場景各維度的影像)
Ⅱ.綜合考慮分(fēn)類體(tǐ)系下的類内多(duō)樣性、類間差異性問題,更多(duō)選擇分(fēn)類難度大的樣本。
①類内多(duō)樣性:類内多(duō)樣性越多(duō),訓練難度越高;反之越低。比如耕地,受不同季節、分(fēn)辨率、地區(qū)、成像條件等因素影響,會出現多(duō)種特征形态;而像一些形态單一的特定類别比如籃球場、風車(chē)等,故訓練難度低。
②類間差異性:類間差異性越大,訓練難度越低;反之越高。比如耕園林草(cǎo)之間差異性較小(xiǎo),建築和道路差異性較大,礦石開采與尾礦堆放地差異性較小(xiǎo)等等;對于差異性較小(xiǎo)的地類間,首先确定人類能(néng)夠目視可(kě)區(qū)分(fēn),其次可(kě)以額外增加此類樣本。
Ⅲ.适當選擇制作(zuò)在實際業務(wù)場景中(zhōng)對模型檢出幹擾性較強的負樣本,如陰影、季節性差異、自然氣象、人類臨時性活動.......
當然了,當你的樣本量足夠多(duō)足夠大,以上這些類似于“特征工(gōng)程”的工(gōng)作(zuò)其重要性占比就越小(xiǎo),這也是深度學(xué)習的優勢之一。所以更多(duō)時候,樣本數量的優先級往往要高于樣本質(zhì)量,當樣本數量多(duō)出一個量級時,是能(néng)夠遠(yuǎn)遠(yuǎn)彌補在樣本質(zhì)量上落後的那幾個點。
04.
樣本庫管理(lǐ) SAMPLE LIBRARY
以上三個環節是針對某一個具(jù)體(tǐ)的遙感業務(wù)或項目所闡述的樣本标注思路,樣本标注的最終目的也就是訓練出一個适合業務(wù)生産(chǎn)的高精(jīng)度AI模型。而随着業務(wù)的逐漸增多(duō),樣本庫的管理(lǐ)也成了一項繞不開的難題。樣本庫管理(lǐ)是一個長(cháng)期的工(gōng)作(zuò),需要有(yǒu)顧全局的意識,其主要目的是讓所有(yǒu)多(duō)樣化的樣本能(néng)夠有(yǒu)條不紊的分(fēn)類入庫,并且形成規範,以容納未來更多(duō)的樣本,便于在後續調用(yòng)的時候,能(néng)夠滿足快速、方便、靈活等特點。樣本庫管理(lǐ)方式可(kě)以依托于智能(néng)化的平台、系統,也可(kě)以采用(yòng)最樸素的文(wén)件夾存儲管理(lǐ)方式,不管哪種方式,其管理(lǐ)的底層邏輯一般都按以下三個層級去劃分(fēn):
層級1——按樣本類型
層級2——按分(fēn)類體(tǐ)系/業務(wù)
層級3——按影像屬性
除此之外,樣本庫建設工(gōng)作(zuò)還包括數據預處理(lǐ)、标注團隊組建、質(zhì)量控制、樣本規格統一等等,這些内容也都不可(kě)或缺,但對于經曆過測繪遙感相關項目的人員來說這些都不算難題。将以上所有(yǒu)内容串聯起來,再結合建設者自身對行業的理(lǐ)解,就可(kě)以構建出一套完整的樣本庫方案了。
注:此篇文(wén)章内容均為(wèi)作(zuò)者主觀闡述總結,請各位讀者批判性吸收,歡迎一起交流學(xué)習!