开发函数计算的正确姿势——使用 brotli 压缩大文件
大文件問題
函數(shù)計(jì)算對(duì)上傳的 zip 代碼包尺寸限制為 50M。某些場景中代碼包中會(huì)超過這一限制,比如未經(jīng)裁剪的 serverless-chrome ,類似的還有 libreoffice ,此外常見的還有機(jī)器學(xué)習(xí)訓(xùn)練的模型文件。
目前解決大文件問題有三種方法
簡單的比較一下這三種方法的優(yōu)劣
| 高密度壓縮 | 發(fā)布簡單,啟動(dòng)最快 | 上傳代碼包較慢;要寫解壓代碼;大小受限制不超過 50 M |
| OSS | 下載解壓后文件不超過 512 M | 需要預(yù)先上傳至 OSS;要寫下載和解壓代碼,大概 50M/s 的下載速度 |
| NAS | 文件大小沒有限制,無需壓縮 | 需要預(yù)先上傳至 NAS;VPC 環(huán)境有冷啟動(dòng)時(shí)延(~5s) |
正常情況下如果代碼包能控制在 50M 以下啟動(dòng)較快。而且工程上也比較簡單,數(shù)據(jù)和代碼放在一起,不需要額外的寫腳本去同步更新 OSS 或者 NAS。
壓縮算法
Brotli 是 Google 工程師開發(fā)的開源壓縮算法,目前已經(jīng)被新版的主流瀏覽器支持,作為 HTTP 傳輸?shù)膲嚎s算法。下面是在網(wǎng)上找到的關(guān)于 Brotli 和其他常見壓縮算法對(duì)比基準(zhǔn)測試。
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-DZLU30aF-1582189593401)(https://data-analysis.cn-shanghai.log.aliyuncs.com/logstores/article-logs/track_ua.gif?APIVersion=0.6.0&title=%E5%BC%80%E5%8F%91%E5%87%BD%E6%95%B0%E8%AE%A1%E7%AE%97%E7%9A%84%E6%AD%A3%E7%A1%AE%E5%A7%BF%E5%8A%BF%E2%80%94%E2%80%94%E4%BD%BF%E7%94%A8%20brotli%20%E5%8E%8B%E7%BC%A9%E5%A4%A7%E6%96%87%E4%BB%B6&author=%E5%80%9A%E8%B4%A4&src=article)]
從上面三幅圖我們可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的壓縮比,接近于 gzip 的解壓速度,以及最慢的壓縮速度。
然而在我們的場景對(duì)于壓縮慢這一缺點(diǎn)不敏感,壓縮任務(wù)只要在開發(fā)準(zhǔn)備物料的階段執(zhí)行一次就好了。
制作壓縮文件
下面我先介紹一下如何制作壓縮文件。下面的代碼和用例都來自于項(xiàng)目 packed-selenium-java-example 。
安裝 brotli 命令
Mac 用戶
brew install brotliWindows 用戶可以去這個(gè)界面下載,https://github.com/google/brotli/releases
打包并壓縮
打包前兩個(gè)文件大小分別為 7.5M 和 97M
╭─ ~/D/test1[? 18:15:21] ╰─ ll total 213840 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium使用 GZip 打包并壓縮,大小為 44 M。
╭─ ~/D/test1[? 18:15:33] ╰─ tar -czvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[? 18:16:41] ╰─ ll total 306216 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 44M 3 6 18:16 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromiumtar 去掉 z 選項(xiàng)再打包一遍,大小為 104M
╭─ ~/D/test1[? 18:16:42] ╰─ tar -cvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[? 18:17:06] ╰─ ll total 443232 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 104M 3 6 18:17 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium壓縮后的大小為 33M,相比 Gzip 的 44M 小了不少。耗時(shí)也非常的感人 6 分 18 秒,Gzip 只要 5 秒。
╭─ ~/D/test1[? 18:17:08] ╰─ time brotli -q 11 -j -f chromedriver.tar brotli -q 11 -j -f chromedriver.tar 375.39s user 1.66s system 99% cpu 6:18.21 total ╭─ ~/D/test1[? 18:24:23] ╰─ ll total 281552 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 33M 3 6 18:17 chromedriver.tar.br -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium運(yùn)行時(shí)解壓縮
下面以 java maven 項(xiàng)目為例
添加解壓依賴包
<dependency><groupId>org.apache.commons</groupId><artifactId>commons-compress</artifactId><version>1.18</version> </dependency><dependency><groupId>org.brotli</groupId><artifactId>dec</artifactId><version>0.1.2</version> </dependency>commons-compress 是 apache 提供的解壓縮工具包,對(duì)于各種壓縮算法提供一致的抽象接口,其中對(duì)于 brotli 算法只支持解壓,這里足夠了。org.brotli:dec 包是 Google 提供的 brotli 解壓算法的底層實(shí)現(xiàn)。
實(shí)現(xiàn) initialize 方法
public class ChromeDemo implements FunctionInitializer {public void initialize(Context context) throws IOException {Instant start = Instant.now();try (TarArchiveInputStream in =new TarArchiveInputStream(new BrotliCompressorInputStream(new BufferedInputStream(new FileInputStream("chromedriver.tar.br"))))) {TarArchiveEntry entry;while ((entry = in.getNextTarEntry()) != null) {if (entry.isDirectory()) {continue;}File file = new File("/tmp/bin", entry.getName());File parent = file.getParentFile();if (!parent.exists()) {parent.mkdirs();}System.out.println("extract file to " + file.getAbsolutePath());try (FileOutputStream out = new FileOutputStream(file)) {IOUtils.copy(in, out);}Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),getPosixFilePermission(entry.getMode()));}}Instant finish = Instant.now();long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");} }實(shí)現(xiàn) FunctionInitializer 接口的 initialize 方法。解壓過程剛開始是四層嵌套流,作用分別如下:
然后 Files.setPosixFilePermissions 的作用是還原 tar 包中文件的權(quán)限。代碼太長此處略去,參閱 packed-selenium-java-example
Instant start = Instant.now(); ...Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis();System.out.println("Extract binary elapsed: " + timeElapsed + "ms");上面的代碼段會(huì)打印出解壓的耗時(shí),真實(shí)執(zhí)行大概在 3.7 s 左右。
最后不要忘記在 template.yml 里配置上 Initializer 和 InitializationTimeout
參考閱讀
加入我們
團(tuán)隊(duì)介紹
阿里云函數(shù)服務(wù)是一個(gè)全新的,支持事件驅(qū)動(dòng)編程模式的計(jì)算服務(wù)。 他幫助用戶聚焦自身業(yè)務(wù)邏輯,以 Serverless的方式構(gòu)建應(yīng)用,快速的實(shí)現(xiàn)低成本,可擴(kuò)展,高可用的系統(tǒng),而無需考慮服務(wù)器等底層基礎(chǔ)設(shè)施的管理。 用戶能夠快速的創(chuàng)建原型,同樣的架構(gòu)能隨業(yè)務(wù)規(guī)模平滑伸縮。讓計(jì)算變得更高效,更經(jīng)濟(jì),更彈性,更可靠。無論小型創(chuàng)業(yè)公司,還是大型企業(yè),都受益其中。我們的團(tuán)隊(duì)正在迅速擴(kuò)張,求賢若渴。我們想尋找這樣的隊(duì)友:
基本功扎實(shí)。既能閱讀論文追蹤業(yè)界趨勢(shì),又能快速編碼解決實(shí)際問題。
嚴(yán)謹(jǐn)?shù)?#xff0c;系統(tǒng)化的思維能力。既能整體考慮業(yè)務(wù)機(jī)會(huì),系統(tǒng)架構(gòu),運(yùn)維成本等諸多因素,又能掌控設(shè)計(jì)/開發(fā)/測試/發(fā)布的完整流程,預(yù)判并控制風(fēng)險(xiǎn)。
好奇心和使命感驅(qū)動(dòng)。樂于探索未知領(lǐng)域,不僅是夢(mèng)想家,也是踐行者。
堅(jiān)韌、樂觀、自信。能在壓力和困難中看到機(jī)會(huì),讓工作充滿樂趣!
如果您對(duì)云計(jì)算充滿熱情,想要構(gòu)建一個(gè)有影響力計(jì)算平臺(tái)和生態(tài)體系,請(qǐng)加入我們,和我們一起實(shí)現(xiàn)夢(mèng)想!
職位描述
構(gòu)建新一代 Serverless 計(jì)算平臺(tái),包括:
職位要求
簡歷提交
yixian.dw AT alibaba-inc.com
“阿里巴巴云原生技術(shù)圈關(guān)注微服務(wù)、Serverless、容器、Service Mesh 等技術(shù)領(lǐng)域、聚焦云原生流行技術(shù)趨勢(shì)、云原生大規(guī)模的落地實(shí)踐,做最懂云原生開發(fā)者的技術(shù)圈。”
總結(jié)
以上是生活随笔為你收集整理的开发函数计算的正确姿势——使用 brotli 压缩大文件的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Heroku 的“得”与“失”
- 下一篇: Serverless 解惑——函数计算如