AI创业公司最佳「开发工具」指南火了,还发现了个可挑战Jupyter的「杀手」
白交發自凹非寺
量子位報道公眾號 QbitAI
一份 AI 創業公司最佳「開發工具」指南,火了。
Reddit 上,一份來自 41 家創業公司的調研答案,熱度已達471。
除了比較流行的開發環境 Jupyter 以外,還出現了這樣一個身影——Deepnote。
小團隊制作,堪稱可挑戰「Jupyter Notebook」的 Deepnote,目前已經有少數公司在使用了。
網友紛紛表示要去試試。
于是進一步吸引了 Deepnote 開發者親自過來答疑。
所以這究竟是一份怎樣的指南?還有哪些其他有意思的開發工具?
調研結果
這份調查來自一家輕量工具集成網站neptune.ai,他們采訪了 41 家 AI 初創公司。
調查結果如下:
軟件開發設置
-
IDE:Jupyter Lab+NB 擴展(少數用 Deepnote),Colab 和 PyCharm、VSCode(R用戶喜歡 R studio)
-
Github
-
Python(大多數),R(部分)
機器學習框架
-
處理數據和可視化:Pandas + Matplotlib + Plotly
-
經典算法:Sklearn + XGBoost
-
深度學習:Tensorflow + Keras 或 Pytorch
MLOps
-
編排:Kubeflow,Airflow,Amazon Sagemaker,Azure
-
模型包裝/服務:Kubeflow,MLflow,Amazon Sagemaker
-
模型從訓練到推理的剖析和優化:pytest-benchmark、MLperf
-
實驗管理:MLflow,Comet,Neptune
具體情況,是這樣的。
軟件開發設置
開發環境是每個團隊工作流程的基礎,而對于 IDE,很多團隊都喜歡 Jupyter Notebooks 和 Jupyter Lab 及其 NB 擴展。
而有些團隊則是使用標準軟件開發 IDE,提及最多的是 Pycharm 和 VSCode。
使用 Pycharm 的一家公司 Hotelmize 稱,這是最好的 Python IDE。
而使用 VSCode 的公司則為其正名。
VSCode 易于與 Azure 連接,并提供了許多基于 ML 的擴展。
對于使用R語言的團隊來說,RStudio 是他們最好的選擇。
還有一項工具——GitHub。我想這對每個 AI 團隊都是福音,初創公司更是。
調查結果正是如此,GitHub 因為其免費、強大的版本控制系統、共享功能,對團隊來說都是超級有用的。
對于最流行的編程語言里,Python、R語言上榜,竟還有一個 Clojure。
值得一提的是,對于環境/基礎設施的設置方面,有一些團隊給出了以下建議:
-
AWS作為部署平臺(Simple Report)。
-
Anaconda是我們運行 ML 實驗的首選工具,因為它的活代碼功能,可以用來將軟件代碼、計算輸出、解釋性文本和多媒體資源結合在一個文檔中。(Scanta)
-
Redis作為內存中的數據結構存儲,由于它支持不同類型的抽象數據結構,如字符串、列表、映射、集、排序集、HyperLogLogs、位圖、流和空間索引等,因此 Redis 作為內存中的數據結構存儲占據了主導地位。(Scanta)
-
Snowflake 和 Amazon S3 用于數據存儲。(Hypergiant)
-
Spark-pyspark—-非常簡單的 api,用于大數據的分配作業。(Hotelmize)
機器學習框架
機器學習框架也必不可少。而這一部分,選擇的工具有很多。
在處理表格數據方面,最多提及的是Pandas。
Sigma Polaris CEO 表示,Pandas 可能是最有價值的工具之一,尤其是在與外部開發人員合作進行各種項目時。所有的數據以數據框架的形式存在,協作更加流暢,減少了不必要的麻煩。
提到可視化,Matplotlib、Plotly是最多的選擇。
還有公司推薦了 Dash,它是一個在 Plotly 圖表為基礎建立的交互式儀表盤的工具,這對于用戶來說更加友好。
對于標準的機器學習問題,大多數團隊使用 Scikit-Learn 和 XGBoost,尤其是Scikit-Learn。
iSchoolConnect 公司就解釋道:
Scikit-Learn 是機器學習研究人員、工程師和開發人員最常用的工具箱之一。你可以輕松獲得你想要的東西,這一點讓人驚嘆不已!
對于深度學習框架而言,PyTorch、Tensorflow+Keras 很受團隊歡迎。
而在具體的方向上,比如 NLP,Huggingface、Spacy、Gensim 是常用的工具,CV 方面,OpenCV 無疑是必需的了。
MLOps
類似于 DevOps,有人稱,MLOps 是用于機器學習的 DevOps。
MLOps 是將模型集成并部署到生產系統中的所有工具。
這包括模型被部署到哪里,如何到達那里,如何被更大的軟件/應用程序訪問,如何跟蹤 ML 模型在現實世界中的性能,以及如何對模型進行實時管理和測試。
每個團隊針對于自身的不同任務,所使用的工具也不盡相同。
調查的結果如下:
-
編排:Kubeflow,Airflow,Amazon Sagemaker,Azure
-
模型包裝/服務:Kubeflow,MLflow,Amazon Sagemaker
-
模型從訓練到推理的剖析和優化:pytest-benchmark、MLperf
-
實驗管理:MLflow,Comet,Neptune
總的來說,很多團隊用 Jupyter 進行探索,用 Pycharm/VSCode 進行開發。
他們都喜歡 GitHub,Python 語言使用的最多。
對于深度學習框架,他們更喜歡使用 Tensorflow、Keras 和 Pytorch。
值得注意的是,越來越多的人開始使用高級的 PyTorch 訓練框架,如 Lightning、Ignite、Catalyst、fastai 和 Skorch。
在可視化探索方面,人們使用 matplotlib, plotly, altair 和 hiplot。
對于實驗跟蹤,團隊通常使用如 TensorBoard、MLflow 和 Sacred 這些的開源軟件包。
想要了解更多,傳送門在此:
https://neptune.ai/blog/tools-libraries-frameworks-methodologies-ml-startups-roundup?utm_source=reddit&utm_medium=post&utm_campaign=blog-tools-libraries-frameworks-methodologies-ml-startups-roundup
總結
以上是生活随笔為你收集整理的AI创业公司最佳「开发工具」指南火了,还发现了个可挑战Jupyter的「杀手」的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 以顾开头的成语有哪些?
- 下一篇: 汽车去污打蜡一般多少钱