說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
在《展望3B大戰之后的搜索變數》一文中,我曾分析過移動搜索與傳統搜索的不同——搜索訴求從獲取信息變為更加本地化、生活化的實體搜索;搜索方式從WEB網頁變為APP;輸入方式也因為使用場景的移動性、移動設備的特征和網絡環境而發生了巨大變化,從文字輸入變為文字、圖像、聲音、體感、位置的綜合輸入;輸出結果因為移動設備的特征而變得更自然、智能和互動,如語音和圖片。另外,廣告模式則從“展示廣告+超鏈接”向基于位置的精準營銷、O2O和電話撥打廣告等方式轉變。
上面提到的各種移動搜索技術現在還在探索中。地圖、語音搜索相對成熟,而下一個正在爆發的則是視覺搜索。人類既然可以通過聲音來驅動設備,又怎會忽略另一個人類與外部環境的核心交互能力——視覺呢?相關科學統計顯示,人類有近80%的信息獲取來自于雙眼。移動設備的攝像頭已是標配,視覺搜索想象空間,Google Glass被認為是一個基于視覺搜索的可穿戴設備。
什么是視覺搜索?
視覺搜索簡單的說法是“以圖搜圖”。
圖像識別技術已經發展有近30年歷史。從初的指紋識別,到現在隨處可見的人臉識別。它們都是將指紋圖譜或者人臉圖片轉換提取出特征,與設備中存儲的已有特征照片進行比對。如果相似度達到某個閾值,則匹配成功,這被廣泛應用于日常考勤、安保、電腦解鎖中。網易近期還推出了“人臉郵箱”是這樣的舊技術搭上新應用。
不過,上面說的圖像識別技術還只是一種一對一匹配技術,遠遠還沒發展到搜索的程度,如同雅虎時代的“網址索引”階段,而視覺搜索則到了Google和百度為代表的第二代搜索的階段。與簡單的匹配不同,視覺搜索是基于算法和數據的。首先需要搜索引擎擁有大量圖片庫,然后提取特征值,聚類建索引。在用戶搜索時,將搜索照片進行解析,去繁存真,檢索并根據相關性排序,返回結果。這個結果可能是一堆圖片,也可能是與圖片相關,結合用戶特征和搜索場景的相關信息。這個過程與現在的主流搜索引擎的過程比較接近。
這個技術的應用場景在哪里?如果夠智能,它可以成為一雙幫你變得更聰明的眼睛。思維過程也是到大腦的記憶存儲區域去匹配相似場景,與一些信息概念映射,并作出行動反饋。如果你看到一個人,似曾相識但想不起來名字,這個思維過程可以被比作整個視覺搜索的慢動作了。這時候或許視覺搜索可以幫你。不過,這得你大腦存儲的記憶全部數字化,能傳遞到電腦才行。
從全球范圍看,在視覺搜索技術的探索方面,走在前面的當然是Google。Google在2009年分別推出網頁版Google相似圖片搜索和Google Goggles,后者是一款安卓版APP,可以拍照并搜索相似照片。2010年,Google特意收購英國視覺搜索公司Plink,以加強Goggles。Google這套東西除了相似圖片搜索技術應用于其購物搜索外,其他的并未帶來商業價值。直到Google Glass的出現才讓其積累多年的視覺搜索技術有了爆發的空間。
百度的發力也并不算晚,它在2010年推出百度識圖搜索(shitu.baidu.com)開始涉水視覺搜索的。不過當時因為使用場景有限,這款產品并未被大眾熟知。更多是滿足了一種新鮮感。
即便如此,百度仍然投入了大量資源來研究視覺搜索。這樣的判斷應該與技術出身的李彥宏喜歡研究技術趨勢有關。兩年前李彥宏宣稱互聯網“讀圖時代”到來,在去年的KDD(知識發現年會)上,他提出的待解9大技術問題中,“基于內容的的視覺搜索”排在第三位。
李彥宏在去年底的百度年會上宣布了百度2012年的壓軸之作:全“全網人臉搜索”。這是一款通過用戶上傳照片,能在互聯網上找到相似照片的產品。圖像識別技術應用于全網搜索后,以圖搜圖的準確率一下子從20%提升到80%。正是應了那句話,技術積累的先發投入,往往會體現在產品的后來居上。
這款產品的識別準確率依賴于被搜索的人臉在網上的照片數量:百度的大規模并行計算機器群會將爬取的照片(不會抓取未開放的私人相冊)進行特征提取和聚類。在這個過程中,會用機器學習算法對人的面部表情喜怒哀樂進行識別學習。照片越多,機器學的材料越多,進而識別率也越高。據說普通照片識別率已達90%。明星甚至高達99%,百度的大數據優勢有關系。
視覺搜索于“移動”的意義
百度愿意為這個目前尚處研究階段的視覺搜索技術傾注資源,可以解釋為一切都是為了移動互聯網布局。去年在其移動互聯網策略和成果不明朗的情況下,外界甚至猜測百度在移動互聯網時代是不是已經失去了昔日位置。不過今年又逐漸明朗起來,地圖、語音、APP及APP內搜索,后發而至。尤其是現在百度在視覺搜索方面的成果,更讓我確信百度的下一個移動互聯網發力點將是移動視覺搜索。
在移動互聯網上視覺搜索的空間甚至比語音搜索還要大。語音搜索的瓶頸除了識別率趕不上圖片識別外,對使用者的說話語氣、語速、口音等要求頗高。的問題是使用場景的局限性:跟手機說話會干擾周圍的人;容易會被周圍的環境干擾。也是說,語音搜索適合相對獨立和安靜的空間使用。
而對于移動場景下對“線下實體”的搜索,比如商鋪、商品、餐廳、菜品、圖書、環境、招牌、景點甚至地鐵對面的美女。這些場景顯然不是“安靜”和“獨立”的,視覺搜索可以避開上述問題。
視覺搜索除了能與移動設備的攝錄能力天然結合外,它也很好地滿足線下的搜索場景和訴求。條形碼和二維碼在這方面開了個先河,除了商品,你可以對著海報、朋友的名片、甚至芒果臺節目上的二維碼“掃一掃”,然后匹配信息并建立聯系。
不過條形碼、二維碼也只是在某些特定類型的物品上。我們的不可能會充滿二維碼,它天生是給機器讀的。而視覺搜索呢?人眼所見即所得。只要人類能看到的,它都可以幫你進行抓取并搜索。
未來的視覺搜索是什么樣呢?類Google Glass的智能眼鏡的普及會成為一個里程碑。在這之后,無論是物體、圖片、二維碼,對視覺搜索引擎來說,都是將真實的物理信息映射為互聯網信息的方式。攝像頭是移動互聯網時代的入口,像PC時代的搜索框一樣。這是Google和百度等搜索巨頭都對視覺搜索投入大量資源的原因——流量入口是搜索引擎的生命之源。
現實遠非完美
視覺搜索未來很豐滿,但是現實仍有些殘酷。如同李彥宏在去年KDD大會提出來的,視覺搜索仍然是待解的技術難題。百度人臉搜索之所以能取得成功,除了百度有海量的人臉照片外,還與人臉是常規圖像有關系。技術上,業界包括谷歌和百度在探索方面既有進展也有挑戰:在對平面或剛體(書籍、CD、建筑物、油畫、明星照片等)的搜索方面,召回率已超過90%;但對“非剛體”圖像的識別,對機器算法有更高的要求(比如動物)。
在常規圖像上,視覺搜索的識別率肯定會低于二維碼和條形碼掃描。不過,如果視覺搜索可以實現百度人臉搜索那樣的精度甚至更高,以及隨著4G到來WIFI覆蓋加強,網絡環境變得更好,當李彥宏說的2.9秒搜索時長變為0.1秒后,視覺搜索將迎來大規模應用。
視覺搜索被詬病的還有交互的自然性,所以有戴著Google眼鏡去酒店被打的,扎克伯克也說帶著它很囧。Siri是在和我們對話,而現在的視覺搜索仍然是“我們使用這款設備拍照并進行搜索,來完成任務”的過程。Google Glass的出現讓我們的眼睛多了一個視覺搜索功能,以前我們看到環境搜索大腦,現在我們看到環境搜索大腦+云端信息。
視覺搜索仍然存在很多瓶頸以及風險。隱私問題,以及人類自我的問題。筆者《不矯情,明天成賤人》提出過科技越進步,人類越暴露的觀點。你無法判斷你對面的人是否在用他的第三只眼睛拍攝記錄你,以及搜索你。除了隱私外,越來越聰明的技術和設備,與人類自身的位置如何協調?我們是不是終有會被設備奴役?當這“第三只眼”真正進化成隱形眼鏡,是我們的身體開始被設備奴役的開端了。你不用擔心對別人造成干擾了,或者說是你永遠不用擔心別人知道你的干擾。
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732