时尚电商新赛道:揭秘 FashionAI 技术
雷音是阿里巴巴研究員、淘系技術部 FashionAI 負責人,在淘系技術嘉年華硅谷站,他分享了《時尚電商新賽道— FashionAI 中的技術》 ,旨在揭秘:從面向機器學習的知識重建切入,提出了在 AI 能力的推動下,讓人值得期待的未來。究竟在阿里巴巴研究員眼中,未來是什么樣的?接下來,我們一起探秘。
1、從推薦技術說起
用戶行為
從推薦技術說起,首先是基于用戶行為的推薦,包括用戶的點擊行為、瀏覽行為、購買行為。推薦技術提升了用戶找商品的效率,也帶來了公司收益的增長。當推薦的效率提高到一定程度的時候,會出現瓶頸,比如說你買了一件上衣之后,還繼續給你推上衣,這個問題這些年一直被詬病。如果是基于用戶行為的話,會朝著這個問題的改善方向發展。
用戶畫像
第二個是用戶畫像。很多人在做用戶洞察,描述用戶精準畫像。但我始終對用戶畫像保持懷疑態度,比如說買衣服,你拿的可能都是用戶的行為數據:瀏覽、點擊、購買。可是,如果你知道用戶膚色的色號、身高、體重、三圍,這個用戶畫像比前者精準多少呢?所以說,所謂的用戶洞察、用戶畫像,今天來看其實還是非常粗糙的。
知識圖譜
第三個我們還可以做知識圖譜,來幫助做關聯推薦。比如,買魚竿推薦其他的漁具,買了車燈給你推其他的汽車配件。但是到今天為止,關聯推薦的效果還不夠好,還有很多困難。
以上是推薦技術通常會考慮的事。那么我們用服飾推薦領域來看一下,還有什么其他的可能。一個服裝的線下店,我們對一個導購員的核心考量指標是什么?是關聯購買。顧客買了一件衣服,這是不計入導購員貢獻的,而導購員通過讓用戶買另外的關聯衣服才是計入導購員的績效,所以,重要的是關聯購買。關聯購買里面的重要邏輯是搭配。當我們把推薦做到具體某一個領域的時候,我們就有了專屬于這個領域的一些推薦邏輯,這就是在日常里面在發生的邏輯。
2、為什么要做行業知識重建?
接下來,我們看看怎樣才能做好搭配。大部分用戶搭配不好的原因是穿搭需要相當多的知識和經驗。衣服的屬性,設計元素是抓手,它的準確率和豐富性一定要足夠,不夠的話做不出可靠的搭配來。
知識圖譜的典型情況就是通過人的經驗或用戶數據把很多的知識點關聯起來。知識圖譜里知識點的生成更多是通過常識的方式。比如說我是一個人,我的朋友是誰,我上級是誰。“我”這個知識點是通過常識產生的。
還有一類方法叫專家系統,比如說我們有很多紅人,把他理解成專家,他所沉淀下的專業經驗。每個領域都會有一些專家,比如醫療系統里就是醫生,專家系統大概是在知識圖譜興起之前人工智能普遍采用的方式。
除此之外,還有一層是知識點,是更基礎的部分,如果知識點本身有問題的話,在這上面構建出來的知識關系都會有問題。在這個基礎上去做 AI 算法,效果就不夠好,這可能是人工智能難以落地的原因之一。要有勇氣去重新構建這個知識點體系。
引用一個淘寶的例子,下圖的上半部分是我們運營或者設計師的知識體系,這是個“領型”的例子,有圓領、斜領、海軍領,可以看出結構是平鋪的、散亂的。以前知識是在人和人之間傳播的。尤其是在小的圈子里,像設計師群體,知識可能非常含混,只要能溝通就行。再比如醫生寫的草書,醫生之間可以看的懂,但是病人都看不懂。很多知識用于人和人的溝通,有大量的二義性,不完備性。比如說服裝風格,一個標簽叫做“職場風”,另一個叫“中性風”。職場風跟中性風從視覺上無法區分,如果人類視覺都難以區分,而機器識別準確率超過80%,那肯定哪里出錯了。
還有一類,打標簽的人可能本身理解就有問題。舉個極端的例子,曾經有一段時間,淘寶商家給衣服打標簽,有一半的女裝上都被商家打上了韓版的標簽。然而,它根本不是韓版,只是因為韓版賣的好,這說明商家打的標簽不是完全正確,有必要通過圖像直接得出判斷。
3、面向機器學習的知識重建
前幾年我們找了淘寶、天貓的服飾運營,綜合了幾版的運營知識做了規整,不過還是不夠好。去年我們做 FashionAI 大賽,和港理工的服裝系合作,后來和北京服裝學院、浙理工都有合作。其實直接由服飾專家們給出的知識體系是不行的,因為我們需要的是一個面向機器學習的知識體系,機器是要分0和1,完備性、二義性問題、視覺不可分等這幾個我們總結出來的原則,這些都要盡量滿足。
我們把曾經散落的知識,按照劃分邏輯去組織,比如說領部,我們會根據它布料去分、設計手法去分、頸線邊緣去分,從幾個維度總結散落的知識點。原先是一盤散沙,最終會看到樹狀知識。我們把常用的女裝屬性整理出來,一共有206種,這還不包括“流行的設計手法”這種開放性的,不斷擴充變化的屬性。這個“整理”比大家想象的復雜得多,花了3到4年時間,除了考慮知識本身,還要進一步考察知識點所對應的數據收集難度,必要性。比如說女裝的西裝領還可以再細分9種,接近視覺不可分,這時停留在女裝西裝領這個粒度就夠了,就不再做細分。
有時很難事先判斷一個屬性是否能學出好的模型來,這時屬性的定義還要做多輪的迭代。我發現我的屬性定義有問題,我倒回去重新定義,然后再重新收集數據、訓練模型,直到模型可以達到要求。等做完知識重建,曾經十幾個屬性識別準確率普遍提高了20%,這個提升是非常大的。
我們現在有206種女裝樣式,有166種語義顏色,還有材質、場景、溫度等知識體系。怎么定義顏色?在時尚行業里,黃色幾乎是沒有意義的,講“檸檬黃”是有意義的,去年女裝就流行檸檬黃。我們知道RGB顏色256256256,在潘通色表里跟服飾相關的一共有2310種顏色,但這個色表里都是色號,消費者沒法理解,我們在上面再建了一層560種有語義對應的顏色,這是跟北京服裝學院一起定的,用來做按顏色給衣服聚類又顯得過細,就又再建一個166種的,就是大家看到類似于“檸檬黃”、“芥末綠”這種語義顏色,到這個階段消費者才能理解。
還有很多的技術細節,比如說怎么處理光照問題、色差問題等等,也有很多的難的地方,在這里我會主要講面向機器學習的知識重建。
4、AI 使知識重建的大工程變得可行
接下來問題就來了,我有206種女裝樣式,收集數據訓練模型的話,怎樣才能做得完呢,更何況一個定義還可能要多輪迭代修正?
比如,下圖中的袖子款式叫風鈴袖,一個合格的數據集大概需要3000到4000張圖片。收集足夠多的,高質量的圖片是一個很大的挑戰,在2016年為了做一個3000到4000張圖片的高質量數據集,大概需要標注超過十萬張圖片,當時的標注留存率只有1.5%。當時的方法就類似學術界做的,先用一個詞去搜回很多圖,然后找人標注。更可能是始終找不到足夠多的圖片旁邊寫著風鈴袖,它都沒有標注,所以你是搜不到的。因此,知識重建確實是一個巨大的挑戰。以前根本沒有人有勇氣去做,因為你根本做不了。
2016年我們完成一項屬性識別要200天,這個時間包括了定義迭代花的時間。2017年我們用40天,2018年我們用2.5天,現在,我們大概用15個小時,到2019年底,我們計劃是縮減到0.5天。這是一個巨大的改變,我們提出“少樣本學習”。大概是在三年前,當時學術界還沒很多人提這個問題,但是我們已經看到了,因為我們痛苦的就是這個,不得不開始上手解決它了。
學術界提到“few-short learing”、小數據學習,更多是偏重如何從少量樣本直接得到一個好的模型,我們選的路不大一樣,我們是從旁邊繞路。
今天,我們把常用的96種女裝屬性完成了,就是利用我們的少樣本學習工具SECT(Small、Enough、Comprehensive),從“少”到“足夠多”到“足夠好”,最重要的是 SECT 不僅在 FashionAI 業務里發生了作用,它還可以做泛內容識別,講得嚴謹一點,在“簡單內容分類”這類任務上表現得不錯。
在泛內容識別上,我們利用 SECT 系統已經完成70多個標簽識別,例如:“插畫、陽臺、上腳”等標簽,我們已經開始改變業務人員和算法人員的工作模式,大家知道在深度學習出來之前,那時候我們的業務人員都不大敢提讓算法人員給出個識別模型,因為開發周期太長了,為了去識別一個東西我要找算法人員跟他商量,然后算法人員手工去設計特征。為了做一個能夠上線的、工業界能用的一個模型,最少花上半年、一年的時間,這是以前的模式。2013年深度學習開始流行之后,這個問題發生了轉化。算法人員會說今天有了深度學習,業務人員你收集足夠多圖片就行了,我給你設計個好模型出來。如果這個模型不好的話,那是你收集的數據質量不行。這時候運營想去收集5000張圖片,發現還是成本很高。
我們今天還很難用 SECT 去解決機器視覺中的“檢測”問題,或者說檢測任務在我們的理解里不是一個“少樣本”的問題,在檢測任務下應該叫做“弱監督”問題,弱監督跟少樣本也有所不同。
5、對未來的展望
我理解大數據應該分兩種,一種是說,你的商業洞察也好,模式分析也好,只有在大規模的數據上才能完成,這是真的大數據;還有一種是說今天的機器學習能力不行,必須有那么多的數據才能出來一個模型,這個叫做偽大數據,因為隨著 AI 的能力越來越強,需要的樣本肯定越來越少。
以前有公司標榜自己有特別多的數據,比如說人臉數據或什么的,把數據看成了資產。這個說法一定會慢慢落下去,因為 AI 能力越來越強,我們需要的數據量越來越少。SECT 再演變下去,會到什么程度?可能中層的跟淺層的算法人員不再需要了,業務人員直接上去提供十幾張圖(不會超過50張圖)交給系統,很快模型就會返回來,你再測試一下是否好用,如果不行,就再迭代學習,直到模型好用為止。它已經不是以前的,標注階段、訓練階段、測試階段,間隔得那么遠。今天,整個迭代越來越快,如果說迭代可以減少到小時級、分鐘級的話,這實際上已經變成了一個人機交互的學習系統,這是未來會帶來巨大改變的東西。
淘寶內容平臺的運營人員說,過去兩個月產出了比之前三年還多的模型。我們自己組的算法同學自己也用來解決屬性識別之外的各類問題,比如說我來硅谷之前,組里同學想識別照片里的人是正身還是背身的,是站姿還是坐姿,是一個深色人種還是一個黃皮膚等等,我們需要在很短的時間里出6個判別模型。今天,我們可以一兩周內讓模型上線,準確率、召回率、泛化能力全都能達到要求。放在以前,這個事情沒有一年半載是不可能的。
業界里有很多人總結深度學習的局限,比如需要大數據、缺乏可解釋性,我覺得在未來幾年,我們對于什么叫“樣本”、什么叫“可解釋性”,會有一個新的理解。我們去年在朱松純老師主編的《視覺探索》上發了一篇文章,叫《如何做一個實用的圖像數據集》,今年我們有計劃寫個續篇,就是《如何做一個實用的圖像數據集(二)》,會重點聊一聊我們在少樣本學習上的體會和展望。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的时尚电商新赛道:揭秘 FashionAI 技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【从入门到放弃-Java】并发编程-NI
- 下一篇: Knative Service 是如何指