阿里媽媽智能圖象識別技術如何查詢違規(guī)商家?細心的消費者肯定知道手淘的“拍立淘”功能,手機對著商品拍照,即可搜索相似商品,這個功能實際上利用了智能圖像識別即技術。
而在以往,有不良商家將違規(guī)信息藏匿到圖片里,以為這樣就能逃過淘寶的搜查,現(xiàn)在,這一招也不管用了,同樣的,智能圖像識別技術在其中扮演了重要角色。
那么,智能圖像識別技術具體如何識別紛繁復雜的圖片信息呢?阿里媽媽高級算法專家鏡宇向記者介紹了阿里媽媽在這方面的技術突破。據(jù)悉,依托該技術,阿里媽媽每周打擊各類違規(guī)可達上萬次,而相應的圖象技術也已應用于阿里巴巴全集團。
以下是鏡宇的分享

圖像展示成趨勢
打開購物網(wǎng)站,占據(jù)篇幅最大的無疑是圖片。
對于用戶而言,商品的圖片有著文字描述無法表現(xiàn)的真實感、可信度,可以說,圖片已成為展示商品的最佳方式。而圖片在展示商品的同時,也成了違規(guī)內(nèi)容誘騙消費者的主要庇護所。原因在于,圖片識別難度太大了。
但是,阿里媽媽作為營銷推廣平臺,對圖片內(nèi)容的審核有著極高的要求。
首先,借助圖片識別能力,阿里媽媽能夠獲取完整的圖片信息,進而提升CPR預估的準確性,提升推廣投放效果。其次,隨著打擊的深入,違規(guī)推廣語逐漸遷移到圖片上,同時,存在商家違規(guī)使用著名商標的情況。
為此,阿里媽媽投入了大量的工作來完善圖片識別算法,經(jīng)過數(shù)年的積累,目前已上線兩個重要技術來應對上述問題,分別是“圖片文字識別”及“商標檢測系統(tǒng)”。
依托這兩個算法的圖像智能識別技術已全面覆蓋智能審核這樣的應用場景,每周可打擊各類違規(guī)一萬多次,相應的圖象技術也已應用于阿里巴巴全集團。
圖像文字識別
文字識別顧名思義就是從圖片上識別文字,這并不陌生,掃描書籍、掃描文件、車牌識別就是這種技術。但是,這些技術通常都要限定場景,一個技術只能被用于某個特定場景。
阿里媽媽面對的目標圖片則完全不一樣,它具有非特定性、不確定性等特點。舉個例子,字體非常豐富,同時還存在變形、搭配布局等復雜情形,外加背景,可以說識別的算法難度極高。國際上甚至有一個叫ICDAR的學術會議,專門討論這一類問題。
怎么辦?阿里媽媽最終提出了“場景圖片文字識別技術”?!?/p>

場景圖片識別發(fā)展歷程
2014年8月,OCR(圖中文字識別)項目啟動,2014年的11月第一版算法上線。實現(xiàn)的功能是將商品圖片中的文字描述提取出來,作為推廣素材投放給最終用戶,補充此前推廣標題或文本數(shù)據(jù)不足的情況。
2015年4月,圖片文字識別在阿里媽媽的審核場景下全面上線,審核工作從全靠人工步入到半自動化審核階段,審核時間為T+1天。2015年的10月技術優(yōu)化后審核只需幾秒鐘。
也就是說,商家上傳推廣創(chuàng)意圖片幾秒后,阿里媽媽就能給出識別結果,通過運營部門的預定義規(guī)則,快速對圖片進行預處理和判斷,如有可疑的違規(guī)行為,也能立刻處理。
你們一定很好奇,怎么辦到的呢? 這里面有一套完整的智能算法迭代方案。傳統(tǒng)的OCR(圖中文字識別)技術可以分成定位、分割、識別等部分,每一個部分會涉及大量人工設計的特征工程或者人工規(guī)則,這會耗費大量精力去觀察文字的特點,我們發(fā)現(xiàn)這種思路識別率很低?!?/p>

阿里媽媽采用的方法依賴于深度學習技術,即讓模型通過對大量數(shù)據(jù)進行學習,如此得到的“知識”比人工識別能力更強。這里面就需要使用大規(guī)模數(shù)據(jù)去完成訓練和識別。摒棄特定工程和人工規(guī)則的邏輯使得阿里媽媽的算法在迭代和更新上得到了顯著提高。
今年6月,阿里媽媽圖像團隊的OCR技術刷新了ICDAR Robust Reading競賽數(shù)據(jù)集的全球最好成績,并大幅超越第二名。借助這一領先的OCR技術,阿里媽媽圖像團隊能夠以95%的超高準確率識別圖中違規(guī)文字信息,有效過濾商家惡意推廣,維護消費者權益。2015年,阿里媽媽累計屏蔽了4600萬條惡意推廣。
商標檢測系統(tǒng)
在淘寶或天貓,一些商家會刻意在標題、詳情頁、商品屬性等地方隱藏商品品牌信息,意圖再明顯不過,侵權著名商品品牌。以往,阿里媽媽的運營人員很難發(fā)現(xiàn)這種基于圖片侵權行為。
為此,阿里媽媽研發(fā)了LGOG(商標)檢測系統(tǒng),在減少品牌侵權的同時,這套系統(tǒng)還能統(tǒng)計平臺上所有的商品品牌,進而做一個統(tǒng)計歸類?! ?/p>

識別樣例
這里有一個非常大的挑戰(zhàn),阿里平臺的品牌種類數(shù)以億計,這就對系統(tǒng)的工作效率提出了嚴苛挑戰(zhàn)。其次,商標識別涉及到的場景具有多樣性特征。第三是商標本身客觀上存在傾斜、行變,或者遮擋、面積小等問題,算法識別易受干擾。
2014年,商標檢測系統(tǒng)上馬,后經(jīng)多輪迭代優(yōu)化,阿里媽媽已基本形成了一套品牌可管理,在線和離線相結合的完整算法解決方案。效果很突出,比如1秒內(nèi)可識別上萬種商標,支持品牌庫隨時配置與擴展,準確率已達95%。
不要用不正當?shù)母偁?,存在僥幸心理,技術的不斷迭代更新,讓交易生態(tài)更加健康完善。
推薦閱讀:《淘寶盜圖處罰規(guī)則 被投訴盜圖如何處理 如何申訴?》
查看更多相似文章