专访:6位飞桨开发者的「新生代」AI创新故事!
?如何讓看世界杯變得科技感十足?
如何在發朋友圈時自動配上優美的圖片?
如何在工業安全生產環境下識別違規手機?
飛槳的年輕開發者們給出了自己的方案。
他們,借助飛槳及飛槳AI Studio,
開發了一個個令人驚艷的系統,
在實現AI夢想的同時,
也幫助更多人、更多行業解決難題。
他們正以AI為槳,劃出時代的未來。
近日,百度CTO王海峰在WAVE SUMMIT+ 2022深度學習開發者峰會上公布了飛槳生態最新進展:飛槳已凝聚了535萬位開發者,構建起全方位的產學研協同共創、共生、共贏的生態體系。其中,基于百度飛槳深度學習平臺的學習與實訓社區飛槳AI Studio,自2018年7月上線以來用戶量也突破了200萬。
在這個龐大的數據背后,濃縮了中國的AI開發者和創造者的身影。他們大多是深耕于制造業、農業、金融等各行各業的工程師,也有剛開始接觸AI的青年開發者,他們是未來“AI新生力量”。通過參加飛槳AI Studio獲得免費算力、進階課程、實訓項目、各類競賽等學習機會和資源支持,逐漸將自己想法應用到實際生產生活中,成為影響世界的一股新銳力量。
在飛槳開發者突破500萬之際,飛槳特別策劃走近6位年輕的開發者,讓我們來聆聽他們的故事,感受那些極具創新性開發案例的魅力。
讓視頻字幕提取更快更準確?
Prompt 患者(飛槳社區用戶名)
華東師范大學?計算機專業 碩士在讀
我加入飛槳AI Studio社區已經1306天,是加入社區比較早的開發者。三年前,我就注意到飛槳AI Studio是國內少有的AI學習平臺,雖然我曾參與多項國內外頂級算法競賽并獲獎,如Deecamp&AIR全球大學生夏令營賽道冠軍及總冠軍、數字中國創新大賽冠軍等。但2021年,參加由中國計算機學會主辦的CCF BDCI大數據與計算智能大賽,讓我印象尤為深刻。
我記得那次大賽上,主辦方提出參賽者可以嘗試使用任何框架迎接挑戰,我過去習慣使用國外深度學習框架,這次我嘗試使用飛槳框架,讓我驚訝的是,在專一文本賽題方面,飛槳框架竟然效果最好!這次比賽印證了我的看法,即百度的深度學習技術運用到專業技術比賽場也能取得顯著優勢,與國外產品對比并沒有絲毫的遜色。
除了技術以外,飛槳社區帶給我全新的體驗。比如,最近我看到一個與廣告視覺算法有關的技術材料,這個材料涉及算法比較偏,內部也沒有披露相關技術環節,我與一些圈內人探討,但他們都沒有得出合理的結論,于是我分享到飛槳AI Studio,有很多同學主動來加我,與我交流,甚至他們還請教了他們領域內的人,最后飛槳上有一個叫“坑姐”的開發者,幫我解決了這個問題,成功地推理出內部結論。
我當時有一種難以言表的激動,你知道嗎?當有一群和你一樣擁有技術情懷的人共同去探索AI時,那感覺真挺好。
我的研究方向是自然語言處理與多模態預訓練。最近我發現市場上視頻平臺開發的智能字幕提取系統大多存在缺陷,就算是最好的開源字幕算法提取效果也不盡如人意。我嘗試利用飛槳開發了“極速識別視頻字幕”項目,現在我們開源的這一版達到99%準確率的提取效果,幾乎可以無損耗地還原OCR識別效果,目前項目進展2個月,開源到社區上大受開發者歡迎,已積累300+的Fork數量(指拷貝數)。
可將一分鐘左右的視頻
在5秒內實現字幕快速提取,準確率達99%
??讓工業生產環境更安全?
張赫航 北京科技大學?
機械工程專業 碩士在讀
我首次接觸到飛槳是通過參加去年12月飛槳AI Studio舉辦的常規賽。之后,我參與了飛槳舉辦的活動,跟一位PPDE(注:飛槳開發者技術專家 PaddlePaddle Developer Experts)入門做計算機視覺。他對飛槳 PaddleDetection 套件以及飛槳全流程開發工具PaddleX比較了解,記得有一次可能都晚上11點,他居然還秒回消息,幫我們檢查項目。
接下來,我完成了中國交通標志圖像分類、基于PP-PicoDet的工業安全生產環境違規使用手機的識別、基于JetsonNano工業安全手機識別部署、文心大模型教你搞定公眾號圖文生成等項目的開發,并在一些飛槳常規賽中拿到名次。
我想重點說一下,識別工業安全生產環境中違規使用手機的項目。我學工科機械出身,平常會涉及到工業設備實驗室安全,在實際工業場景中,實驗室環境或比較危險的生產環境下是不允許使用手機的(因為使用手機容易造成安全事故),如果能通過技術的手段監測違規使用手機的行為,就能避免一些安全隱患。因此,我就想到開發一種手機識別應用來監測工業安全生產環境下違規使用手機的操作行為。
工業安全生產環境違規使用手機的識別應用樣機
具體來說,我采用了計算機視覺、深度學習模型的方法,選擇PaddleDetection套件,將其部署到開發板上(后續商業應用還可以部署到移動端上),用戶只要將開發板連上電源,打開攝像頭,輸入命令,用攝像頭對準你要檢測的某一個區域,當區域內出現有人違規拿著手機時,就能進行識別,此時開發板所連接的顯示器會呈現自動框選出來的目標手機。
由于飛槳套件非常方便、好用,上手極快,項目進展整體比較順利,我根據套件要求傳入數據,訓練模型后,進行快速高效預測。目前已部署成功,實現了實時在線識別,我們還將項目開源到飛槳AI Studio上。
當然中間也遇到過一些小困難。比如,在開發識別時,開始有一些模型數據接口沒有調好導致報錯,當時在飛槳PPDE高睿老師幫助下,我們順利地解決了問題;在部署階段,我應用C++進行編譯部署,出現了一些小語法操作錯誤,當時同負責部署的導師交流后,也成功解決了。
我認為,飛槳為廣大開發者學子提供了一個低門檻上手深度學習的平臺。作為國內開源的框架,飛槳是比較親民的,為開發者提供免費的算力,要知道有些算力比如顯卡、開發板造價比較貴,普遍開發者無力承受。此外,深度學習是這個時代的前沿,我希望自己能有大的格局與視野,不斷思考和創新,做一些對生活生產有幫助的事情。可以說,飛槳為我打開探索新世界的一扇窗。
?讓室友不再為朋友圈文案配圖費心??
彭騰宇 廣西民族大學??
智能科學與技術專業 本科在讀
隨著AI科技的發展,我們的世界正因AI的參與變得越來越美好。舉例來說,自動駕駛接管了我們的車輛,讓駕駛員也能在旅途中作為一個觀賞者去欣賞外面的風景,而不是辛苦地開車,將注意力集中在道路安全上。
另外受到我哥哥的影響,我高考志愿選擇了智能科學與技術專業。他在華南理工大學讀大三,專業也是AI方向,在我高考前的寒暑假,他每次回來都會給我分享展示他做過的項目。當時我就覺得好有趣!從那時起我就決定以后也往AI方向發展。
剛進大學那會,我查詢了一些平臺,想鍛煉自己的專業能力,偶然的機會摸索到了飛槳平臺,但真正近距離接觸飛槳還是在學校的研習周,學院統一組織我們參加了飛槳文心大模型創意賽。
我覺得這次邂逅是我人生中第一次接觸到了真正意義上的AI。我現在學校的專業學習基本上是訓練編程能力和編程思維,但對我來說,會編程和編好程離AI還有非常遙遠的距離,文心大模型中有上千億的參數量,可以自行調節參數優化項目,搭建前端頁面的新事物,這些是僅靠編程做不出來的。
加入飛槳AI Studio社區后發生了一件有意思的事。我經常聽到室友抱怨發朋友圈寫的文案找不到合適的配圖。一個月前,我剛好接觸到了飛槳文心大模型,知道文心大模型有根據文字生成圖片的能力,我想嘗試開發一個項目去解決這個問題。
我開發的“關鍵詞句AI作畫”系統,利用文心大模型的文本理解與創作能力,用戶只要輸入一段文字,復制粘貼到這個系統里,系統就可以提取段落句子里的關鍵詞并自動生成圖片。現在這個項目已經上升為文心創意賽的11月月賽的精選項目。
當然,開發項目過程中我也遇到過棘手的事。比如,文心把文字轉化為圖片是以網頁鏈接的形式,而不是直接將圖片展示給用戶,這對用戶的體驗感會大打折扣。為了解決這個問題,我請教了我的指導老師蔣權,在他的幫助下,最終的項目實現了生成的圖片可以在前端頁面直接展示給用戶。
我記得完成這個項目的當天晚上,我的室友就用我開發的這個項目去生成了一個圖片,還發了一篇“秋天的第一杯奶茶”的朋友圈,在朋友圈里面收獲了很多的點贊。
室友用關鍵詞句AI作畫系統
生成朋友圈“秋天的第一杯奶茶”
?讓觀眾看世界杯更具科技感??
卜宜凡 華東理工大學?
智能科學與技術專業 本科在讀
我今年暑假參加飛槳AI Studio特訓營接觸到了飛槳。飛槳社區氛圍很好,大家都愿意幫忙,彼此之間互相成長,社區活動也非常豐富,對我個人幫助很大。除了特訓營,還有個創造營,社區給了我們這些開發者一些硬件來實操,還組織過英特爾工程師和我們交流。
我印象比較深的是社區上有一個叫“深淵上的坑”的大神,她寫了很多項目,而且每一次改進她都會將其寫成一個全新的項目,我們可以在這個過程中看到一個很牛逼的東西或完善的功能是如何一點一點變成現實的。
我喜歡看足球,最近在關注世界杯,但看球賽時,有時會認不齊人,有時想要一些帥氣的片段分享給好朋友看,我就想做一個可視化的輔助工具,實現一些看起來科技感十足的可視化效果。
足球賽識別追蹤改良項目效果圖
球類檢測的難點在于,足球體積很小,往往難以定位追蹤,特別是在鏡頭較遠時,一般很難確切找到球在哪個位置。百度的指導老師盧飛翔對我幫助很大,在他的指導下發現是初期采集的數據不好造成的定位不準。
我們團隊調用了一些數據,訓練了一個球類檢測模型,選擇用PaddleDetection套件里的實驗識別工具,將之前訓練的模型串到一起,形成球員和球類識別追蹤的可視化,這樣觀眾在看球賽時可以實時標注賽場上的球員姓名、足球位置,并一鍵生成視頻進行分享轉發。這個小項目后來并入了PaddleSports的官方Repo(指Github上的代碼倉庫),同時還擴展了許多新的功能,包括號碼識別、隊伍識別等。
??讓AI變得更好玩?
常鈞淋 北京航空航天大學
虛擬現實技術與系統國家重點實驗室 碩士在讀
我去年9月第一次接觸飛槳,當時選修了軟件學院的模式識別課程,課上老師布置了一個作業,要求用飛槳框架實現,我就第一次注冊了AI Studio。今年5月,我報名參加了飛槳AI Studio特訓營,跟著PPDE李文博老師做項目,一個月做了18個項目,那時經常干到晚上兩三點,基本上每天就是看論文,然后寫代碼,去跑后臺第二天看效果。
這些項目中,類MLP架構是我比較有成就感的。我想在點云場景中,找一個Transformer或MLP看能不能替換。我當時調研了圖像分類領域的類MLP架構的論文,發現市場上Transformer比較火,但是自注意力機制到底是不是必要的存疑。而類MLP架構實際上要解決的問題是通過設計MLP去替換自注意力機制,換而言之,如果只用MLP能達到與Transform一樣的性能,在圖像分類目標檢測,語義分割數據集上實現同樣的效果,那么就可以證明自注意力機制并不是那么必要。后面李文博老師還推薦我去飛槳《開發者說》做分享,當時既驚喜又忐忑。
搞AI傳統方向其實挺枯燥的,在飛槳和大家一起探索AI是一件很好玩的事,像我比較愛看動漫,就想做人臉動漫生成,飛槳給我提供了一個實現創意的舞臺。
???讓媒體工作更方便快捷??
周軍 成都廣播電視臺?
軟件工程師 在職
說來你可能不相信,我已經40多歲了。我大學不是學AI的,畢業后我就進入電臺工作,現在融媒體發展部做新媒體、PHP開發相關的事情。電臺是事業單位,可能有些人會很羨慕,但是其實有點像古代后妃困在深宮中一樣熬人,一不小心十年、二十年過去了,我時常覺得我的人生可能就要這樣浪費了,接觸飛槳以后才讓我重新燃起對生活的希望。
我一直對AI很感興趣,自己找了很多資料看,但由于缺乏驅動力,一段時間就放棄了。今年2月,一次偶然機會我參加了飛槳AI Studio的AI達人創造營,在這里我遇到了許多對AI有熱情的開發者,后來我在創造營以優秀的成績結業,加入AI Studio作者群,遇到了我崇拜已久的大佬,比如輝佬、胡雷等,讓我很是激動。社區非常活躍,還有助教幫助開發者解決問題,對像我這樣的零基礎的人真的很友好,我好像忽然一下子就找到了AI入門的鑰匙。
10月24日,周軍參加飛槳組織的成都程序員節
現場與眾多開發者互動
加入飛槳這段時間以來,我的個人生活和思維方式發生了巨大變化,我現在每天下班后第一件事情就是打開飛槳AI Studio看一看。工作上,我經常會不自覺地思考這個事情AI是不是能夠解決?
我認為,AI在廣播媒體行業是一種革新,可以讓媒體傳播制作變得更好。比如,AI可以幫助媒體資源管理庫,進行音視頻的語義分析;我之前嘗試過做過一個AI主播,用了飛槳的套件和模型,雖然聲音模仿上嘴型吻合得不是特別好,但能達到90%聲音逼真效果;還嘗試過開發字幕轉換工具。
我現在實力還不夠,就想著盡自己的能力多給在社區做點事,我希望自己能力強大時,成為一個貢獻者,讓飛槳變得更好。
關注【飛槳PaddlePaddle】公眾號
點擊菜單欄「WAVE回放」查看峰會精彩內容
總結
以上是生活随笔為你收集整理的专访:6位飞桨开发者的「新生代」AI创新故事!的全部內容,希望文章能夠幫你解決所遇到的問題。