你可能不知道,Diffusion现在有多火
就在一個月前,我還很疑惑為什么大廠們都要去卷文本生成圖像,當時自己總結了兩個有價值的落地點(美術教育和內容生成),但始終不太exciting,感覺現在的技術離目標還有不少距離。
結果才短短一個月,我的認知就被革新了。
在過去的一兩周里,我的twitter每天都在被Diffusion刷屏,各種玩法層出不窮。如果這樣描述你沒有感覺,那你可以打開這個網站,來看看過去一周內Diffusion相關的新項目列表:
https://multimodal.art/news/1-week-of-stable-diffusion我數了一下,非完全統計一共24個,平均每天就有3+個Diffusion的項目,仿佛是一個新的大航海時代。
Stable Diffusion
這次火爆的源起,是慕尼黑大學的CompVis組,聯合Stability AI[1]和Runway[2]發布了他們預訓練的Diffusion生成模型[3]。
不就開源了一個模型嗎?有啥呢?
首先,它開源。別看OpenAI的DALLE2和Google的Imagen效果都那么好,可他們都是半開不開的,Diffusion的訓練成本更高,普通人根本訓不起。這次能開源要得益于Stability AI的加持,由國外超級富豪Emad Mostaque創辦,目標是創造開源的AI工具,大家可以把它當成真正的「Open AI」。這次的Stable Diffusion,是Stability AI的第一個公開產品,在4000臺A100上訓了一個月[4],有錢真好。
其次,它輕量,一張10GB以上顯存的卡就能跑。要知道即使DALLE2開源了,普通人也是用不起的,而Stable Diffusion經過優化后一張卡就能放得下了,做到了真真正正的親民。
最后,它效果真的好,好到能商用。這主要歸功于高質量數據集LAION[5]的加持,我分別挑了DALLE2和Imagen的prompt來對比,感覺Stable Diffusion不亞于那兩個大模型:
同時它還有很多種玩法:
文本生成圖像
圖像+文本生成圖像
補全圖像中的某個部分(例如把貓換成一只狗)
種種以上因素,讓Stable Diffusion在幾天內引爆了AI圈。
Diffusion的大航海時代
Diffusion最早是15年的一篇文章提出的[6],但當時并不完善,直到20年時的DDPM[7]才真正做work。之后的事情大家也就知道了,從21年底到22年間,先后有OpenAI的GLIDE、DALLE2和Google的Imagen都用上了這個工作。
Diffusion的核心思想,就是把生成的過程拆成一個個簡單的小步驟,而不是像其他模型一樣「一步到位」,這樣擬合起來相對容易,所以做出來效果很好,同時訓練起來也更加穩定。
不過隨之而來的,就是它訓練過程消耗資源大(每一個小步都需要訓練),同時生成的速度也慢(一步一步生成)。
正因為它存在缺點,在理論上還有很多研究可以做,同時它優秀的效果,使AIGC可以更進一步。
想想在過去,在移動互聯網時代中,UGC撐起了多少應用吧:微博、知乎、B站、頭條、抖音。。如果AI能增加UGC的效率,或者直接生產內容,會是什么樣呢?再想想未來,在元宇宙里,如果不需要那么多人力去建模,那未來是不是能來的更快一些呢?
聽到這里,是不是開始exciting了!
那就開始學習吧!
學習資料匯總
下面是我收集的靠譜學習資料:
HuggingFace推薦的博客:
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
https://yang-song.net/blog/2021/score/
代碼+公式:https://huggingface.co/blog/annotated-diffusion
介紹和Paper匯總:https://github.com/heejkoo/Awesome-Diffusion-Models
蘇神博客:https://spaces.ac.cn/
知乎討論:https://www.zhihu.com/question/536012286
B站視頻:
https://www.bilibili.com/video/BV1b541197HX
https://www.bilibili.com/video/BV1cW4y1z7pp
參考資料
[1]
Stability AI: https://stability.ai/
[2]Runway: https://runwayml.com/
[3]High-Resolution Image Synthesis with Latent Diffusion Models: https://ommer-lab.com/research/latent-diffusion-models/
[4]Stable Diffusion及其背后的機構Stability AI: https://www.bihuoji.com/441035.html
[5]LAION: https://laion.ai/
[6]Deep Unsupervised Learning using Nonequilibrium Thermodynamics: https://arxiv.org/pdf/1503.03585.pdf
[7]Denoising Diffusion Probabilistic Models: https://arxiv.org/abs/2006.11239
分享
收藏
點贊
在看
總結
以上是生活随笔為你收集整理的你可能不知道,Diffusion现在有多火的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jenkins自动打包报错:cannot
- 下一篇: 粒子群优化能做相机标定吗