人工智能的概念提出已經50多年,人類在此領域做了很多探索與嘗試,也取得一些成績。是的,對于人工智能的現今表現來說,只能算是“一些”。但是,不可否認,某些時候有點“智障”的人工智能早已在很多場景得到應用。未來,它的應用場景將會更廣泛。
談到人工智能,相信各位都不會陌生,字面意思也很容易理解。
有些人眼里,人工智能已經是一種很成熟的計算機技術,可以幫我們做很大的事情,大到預測局部地區(qū)明天的天氣如何、分析金融市場的股票交易波動;也可以幫我們做很小的事情,小到拍照時的貼紙自動追隨人臉,推送我感興趣的新聞或商品,這些都可以用人工智能實現。
但是在另一些人眼里,人工智能還是待在實驗室的新事物,它離我們的生活還很遠,我們現在接觸的人工智能最多算是個人工智障,現在炒得大熱的人工智能概念只是資本游戲的噱頭,其實它什么都沒有改變。
人工智能并非萬能鑰匙,并非所有事情都能用人工智能解決。但同樣,人工智能也并非是虛無縹緲的新技術,它的身影已出現在生活中的方方面面。
在日常工作中,我發(fā)現很多身邊朋友以及互聯網從業(yè)者同樣對人工智能存在不少誤解,我嘗試結合我過去的一些經驗,聊一聊我的看法。
在此我們先聊聊,人工智能的概念為啥突然這么火。
一、人工智能為什么突然崛起?
很多人都誤認為,人工智能是近幾年才被創(chuàng)造出來的新概念。
實際上,最早提出“人工智能”這個概念是在1956年美國達特茅斯學院的一次學術會議上。雖然當時這個會議只進行了一個月,也沒有取得什么實質性的進展,但是這個會議首次正式提出“人工智能”一詞,并且沿用至今。
盡管在當時,對于人工智能的研究進展非常緩慢,但是經典的科幻電影《2001太空漫游》還是表達了當時的人們對人工智能的美好幻想。
又經過了近50年的發(fā)展,人工智能從電影的幻想逐漸走進了人們的日常生活,并且成為了各個領域的得力助手。
這個過程并非一帆風順。
上世紀80年代前后,日本人研究了一種能夠模擬人類專家決策能力的計算機系統(tǒng),稱為專家系統(tǒng)。這個專家系統(tǒng)實際上就是一個巨大的知識庫,再通過一些推理規(guī)則讓這個系統(tǒng)能夠根據提問找到答案。
這種專家系統(tǒng)能夠根據輸入的問題提供回答,是當時人工智能技術的代表,一定程度上也是計算機“智能化”的表現。因此這個項目得到日本政府的高度重視,投入了大量的人力物力研究,希望能打造一個計算速度更快、知識儲備量更高的專家系統(tǒng)。
受到日本人的刺激,同期美國和許多歐洲國家也紛紛進入到這個賽道中。
可以預見的是,專家系統(tǒng)最初取得的成功是有限的,因為它無法自我學習并更新知識庫,維護成本極高。就像以前沒有聯網的車載導航系統(tǒng)一樣,每年都需要更新地圖;否則這個系統(tǒng)一年以后就廢掉了,無法給出正確的指引。
專家系統(tǒng)的失敗,也讓人們對于人工智能的信任產生了巨大的危機。硬件市場的潰敗和理論研究的迷茫,加上各國政府和機構紛紛停止向人工智能研究領域投入資金,導致了數年的低谷。
好在資本不再關注人工智能的時候,人工智能的理論研究還在緩慢進行中。
1988年,美國科學家 Judea Pearl 將概率統(tǒng)計方法引入人工智能的推理過程中,這對后來人工智能的發(fā)展起到了重大影響。
1989年,AT&T 貝爾實驗室的 Yann LeCun 和團隊使用卷積神經網絡技術,實現了人工智能識別手寫的郵政編碼數字圖像。
在此后近二十年,人工智能技術逐漸與計算機技術、互聯網進行深入融合。得益于大規(guī)模并行計算、大數據、深度學習算法和人腦芯片這四大催化劑的發(fā)展,以及計算成本的降低,使得人工智能技術突飛猛進。
它利用計算機和互聯網的發(fā)展機遇,化名為商業(yè)智能、數據分析、信息化、自動化等等,滲透到社會發(fā)展的每個角落。
一方面,互聯網的推廣為人工智能創(chuàng)造了很多落地應用的場景,體現出真正的價值;另一方面,計算機軟硬件的升級為人工智能提供了強大的運算力,以前在理論上才能實現的算法得以落地,讓人工智能在越來越多賽事上創(chuàng)造奇跡,甚至超越人類。
2011年,沃森在自然語言常識問答比賽中戰(zhàn)勝人類選手,ImageNet 挑戰(zhàn)賽上圖像識別算法準確度超越人類;
2016年,AlphaGo 戰(zhàn)勝李世石,成為第一個戰(zhàn)勝世界圍棋冠軍的AI機器人;
……
二、是人工智能,還是人工智障?
近兩年人工智能被人們詬病最多的地方是:人工智能體現不出智能。
很多人對人工智能的認知都是分裂的。
一方面媒體不斷報道人工智能又取得了什么樣的新成果,國外各路大咖讓人們要警惕人工智能的發(fā)展,人工智能還被納入我國發(fā)展的規(guī)劃中等。
另一方面,新聞里傳出自動駕駛發(fā)生事故,家里的智能家具表現地像個智障一樣,資訊平臺總是傻傻地推同樣類型的新聞……這些現象都讓我們疑惑,人工智能到底智能在哪里?
回答這個問題之前,我們有必要搞清楚:強人工智能和弱人工智能的區(qū)別。
最初,在達特茅斯會議提出人工智能一詞時并沒有強與弱之分,普遍認為人工智能就是讓機器擁有思想,能夠像人類一樣決策。當時,各種算法的研究也是奔著這個目標而去,希望能夠模擬人類決策的方式賦予機器真正的智能。
但很快就有人發(fā)現:在這種方式下實現的人工智能并非真正的智能,只是對人類智能的模擬。
美國哲學家 John Searle 提出了一個思維實驗:中文房間(Chinese Room Argument)。
想象一位只會英語的人身處一個房間之中,這間房間除了門上有一個小窗口以外,全部都是封閉的。他隨身帶著一本寫有中文翻譯程序的書,房間里還有足夠的稿紙和鉛筆。
寫著中文的紙片通過小窗口被送入房間中。房間中的人可以使用他的書來翻譯這些文字并用中文回復,雖然他完全不會中文。Searle 認為通過這個過程,房間里的人可以讓任何房間外的人以為他會說流利的中文。
值得注意的是,這本書僅僅是語法的對應,并不涉及到任何語義的說明。房間中的人,只需要按照對應的回答,拼湊出相應的中文字符遞出去即可。在這個過程中,他并不理解問題和他所寫的答案是什么意思。
Searle 認為,人工智能就是這樣工作的。他認為計算機根本無法真正理解接收到的信息,但它們可以運行一個程序,處理信息,然后給出一個智能的印象。
例如圖像識別技術,它的工作原理就是將顏色變成數字編碼,再從這些數字編碼中找到特征,查找字典,找到對應的解釋然后顯示出來。實際上,計算機壓根不知道自己識別的到底是飛機還是兔子,只是字典告訴它這個特征很大概率對應的是“飛機”這個單詞。
絕大部分算法在本質上都是在玩概率的游戲,不同的只是在模型訓練時需要的信息不同,以及計算出來對應“飛機”的判定方式不同。
當前所有被廣泛應用的知名模型,都是通過矩陣運算訓練數據來獲得某種概率分布。復雜模型的概率分布通常是高維的,這里又會引申出各種數學方法,但本質的思想依舊是想通過概率分布來描述訓練數據的特征。
有了這些,就可以使用相同的概率分布去描述同類的數據,從而實現所謂的“識別”或“預測”。
實際上,并非模型真的像人類一樣理解了什么是“飛機”,只是通過這種方式,模型能夠大概率得把長得像飛機的圖片識別出來。后來業(yè)界也普遍認識到這一點,因此把人工智能這個概念又劃分為強人工智能與弱人工智能。
強人工智能流派仍然追求讓計算機擁有人類的心智與意識,具有自主選擇行為。就像西部世界中從固化程序逐漸演化出自我意識的梅芙一樣。但是強人工智能的研究難度較大,市面上還沒有成熟的應用。
而弱人工智能更像是一個解決特定問題的工具。這類問題的特點是可以通過統(tǒng)計,歸納出經驗并形成解決方案,而這種解決問題的實現方法被稱為“機器學習”。
機器學習最基本的做法,是使用算法解析數據、從中學習數據的規(guī)律,然后對真實世界中的事件做出決策。與傳統(tǒng)的編程方式不同,機器學習是用大量的數據進行訓練,通過各種算法從數據中學習“如何完成任務”。
例如量化交易、人臉識別和 AlphaGo 都是擅長于單個方面的機器學習模型。在訓練模型時,我們只教會 AlphaGo 下圍棋的技巧,所以它只能會下圍棋。如果你把一道數學題丟給 AlphaGo,它顯然是無從下手的。
所有的機器學習模型都只能完成特定的任務,很多時候我們通過組合的方式滿足更多的場景。例如智能音箱本質上是一個語音識別的模型結合NLP(自然語言處理)模型,它并非真的能聽懂我們說的話代表什么含義,僅僅是能夠把接收到的信息轉化為模型的輸入,在字典中找到對應的輸出而已。
從機器學習的特點可以看出來,如果想通過統(tǒng)計歸納經驗,數據的數量與質量是決定性條件。
沒有數據,就沒有人工智能。也就是說在你沒有作出同類別行為,或者是與你行為相近的人群較少時,人工智能是沒有辦法作出判斷的,這也是人工智能變成人工智障的重要原因。
當行為增加,數據慢慢變多,數據質量逐漸上升時,你會發(fā)現預測越來越準確,人工智能通過大數據也能做到真正的“想你所想”。
三、什么問題適合用機器學習解決?
前面我們說弱人工智能像工具,專門解決某個特定的問題。但是否所有問題都適合用機器學習去解決呢?很明顯答案是否定的。
適合用機器學習去解決的問題,主要有三個基本條件。
有規(guī)律可以學習:這類問題必須存在共性,有內在的規(guī)律等待被發(fā)現;
編程難以實現:數據之間關聯關系復雜,很難通過窮舉的方式列清楚規(guī)則;
有足夠多能夠學習到規(guī)律的數據:沒有數據支撐,機器學習就像搭好了結構少了磚瓦的房子。
舉個栗子:
我們熟知的垃圾郵件檢測是一個使用機器學習解決的經典場景。最常見的垃圾郵件是各種類型的營銷郵件,并且這種郵件的發(fā)送方通常是各類用郵箱注冊過的網站。
在這個場景中我們發(fā)現,營銷郵件一定是包含某些產品信息或推廣信息,所以這類郵件有一定的規(guī)律。但是因為不同產品種類各異,我們很難用編程的方式把所有規(guī)則寫出來。
就算能寫出來,發(fā)送方也會設計各種規(guī)則躲避系統(tǒng)的檢測。同時,我們很容易找到大量垃圾郵件與正常郵件作為樣本數據。因此,這個場景非常適合用機器學習的方式解決。
但如果我們想判斷新郵件包含多少個字符,恐怕就不太適用。雖然這個問題同樣難以用編程解決并且有大量歷史郵件支持,但包含多少個字符這個問題的隨機性太強,沒有規(guī)律可循,因此不適合。
由此可見,機器學習不是萬能的,不是所有的問題都能用它去解決。
機器學習擅長通過已知經驗找到規(guī)律去解決問題,如果面對的問題沒有任何規(guī)律可循,完全是一個隨機事件,那么就算使用再復雜的機器學習算法也無濟于事。
值得注意的是,很多問題看似沒有規(guī)律,實際上是因為人類處理不了數據量太大的情況,看起來雜亂的數據掩蓋了背后的面目。這類問題并非真的無跡可尋,只是需要用正確的方法。
我們通過機器學習可以對大量數據進行分析獲得規(guī)則,并利用規(guī)律對未知數據進行預測。不但能從數據中看到人類能看到的規(guī)律,更重要的是能在更短的時間內發(fā)現人類看不到的規(guī)律,我想這就是機器學習最大的應用價值。
在醫(yī)學領域,通過圖像識別技術,已經實現讓計算機自動識別腫瘤細胞,幫助醫(yī)生快速進行醫(yī)學診斷;
在制造業(yè),通過強化學習的方式自動檢測產品缺陷提高出品率,幫助企業(yè)加快生產周期降低生產成本;
在金融領域,通過神經網絡技術可以避免傳統(tǒng)程序化交易因為無法根據實時發(fā)生的市場變動調整算法,從而造成資產損失的風險;
在零售、安防、航空、互聯網等等不同領域,機器學習都有廣泛的應用,它已經對我們生活的產生了巨大的變化。
最后,我們必須認識到,目前的人工智能并非真正的智能,只是一種模擬人類行為的智能。而真正的智能,離我們的生活還非常遙遠。
但值得慶幸的是,僅是模擬人類行為的智能已經能夠給我們的生活帶來了如此大的便利。相信隨著技術的發(fā)展,我們能夠做出更多超越想象的場景。
請登錄以參與評論
現在登錄