人工智慧在影像處理與電腦視覺之應用
 
2018/06/20
 
莊永裕 | 台灣大學資訊工程學系教授兼系主任
 
 

電話響了,我們會去接;看見車子,我們會閃避。這些動作對我們來說很簡單,但是機器人做得到嗎?最新的人工智慧發展,已經能夠讓機器感知世界了。台灣大學資訊工程學系教授莊永裕分享了人工智慧技術在電腦影像及視覺上的應用。

 

如何看見世界

 

什麼叫做智慧?有人說是耳聰目明,在電腦視覺的領域,莊永裕說:「我們希望電腦能夠『目明』,可以跟人類一樣看到世界、理解世界。」

 

人類是如何看到世界的呢?人類有一雙眼睛去感知世界,當外界的光進入眼睛後,就由神經元傳送訊號到大腦,最後由大腦負責詮釋場景。科學家也模仿了這個架構,用攝影機取代眼睛,用演算法和電腦取代人腦,希望機器因此能看到世界,但還是很困難,因為機器看到的是一堆數字。

 

然而自從有了人工智慧之後,電腦視覺就有了重大突破。大致可以從兩個面向著手:從替代的眼睛著手,也就是要提高攝影機的能力,這方面的研究屬於「計算攝影學」;從替代的大腦著手,就要學會辨識、分析,進而做出決策,這屬於「電腦視覺」的範圍。

 

把不完美變得完美

 

所謂的攝影就是光經透鏡折射後,在底片上成像。傳統用的是化學底片,數位相機則把底片換成感光元件,兩者在成像上,都遵循物理學定律。不過由於攝影機有各種限制(別是手機相機),記錄到的影像是不完美的,為了克服這個不完美,就必須透過運算晶片,把影像訊號轉換成符合期待的照片。所以數位相機所得到的影像,莊永裕說:「很多地方都是硬體猜出來的。」這就是他在研究的「計算攝影學」,可以去雜訊、提高解析度,增進影像的品質。

 

除了相機本身,攝影者也可能造成不完美,例如手震;或是場景不符合人類的預期,像是陰天等。不過,不完美的影像可以透過深度學習變得完美。

 

以監督式學習為例。例如我們可以找人修上萬張照片,把未修的照片做為「輸入」,把修好的照片做為「輸出」,讓機器去學習,機器便可以學會如何修照片。若是用對抗式學習就更容易了,收集幾百張你覺得「好」的照片,讓鑑別者找出好照片的條件,讓生成者把不好的照片修得完美,去符合那些好的條件。

 

這樣的技術有很多應用。除了讓影像、影片變得更鮮豔漂亮,還可以用來修補有缺漏的圖片,也可以把圖片改變成畢卡索、梵谷、莫內的風格,甚至可以無中生有,產生真假難辨的人臉照片。

 

機器看得見了

 

機器能夠處理影像,不代表它能夠辨識影像。比如給一張貓的照片,它不見得知道是貓。在深度學習技術出現之前,莊永裕表示:「電腦視覺發展了50年都無法有突破性的進展。」運用深度學習之後,機器知道如何分析、辨識影像,然後做出進一步的決策,這才有了視覺。

 

機器有了視覺就能做很多事,例如自動車駕駛,機器能辨別人、車或其他物體,決定是否煞車或轉換方向;或是無人商店,機器能辨識人臉、商品,知道什麼人拿了什麼商品、放回什麼商品,最後結帳。

 

莊永裕認為,人工智慧的目的是幫助人類空出更多時間,從事更有創造力的活動。如果把人工智慧的發展分成五個層次:計算及記憶、感知、認知、創造力、智慧,今日的人工智慧大致都還停留在影像辨識、語音辨識等感知階段,如何朝上一個層次邁進,也是科學家未來努力的目標。

 

【整理/科學人】

 

延伸閱讀:讓AI不犯錯,《科學人》2018年4月,http://sa.ylib.com/MagArticle.aspx?Unit=newscan&id=3928

 
瀏覽人次:378