ML.NET生成器带来了许多错误修复和增强功能以及新功能
ML.NET是一個開源的跨平臺機器學習框架,適合 .NET 開發人員。它允許將機器學習集成到 .NET 應用中,而無需離開 .NET 生態系統,甚至擁有 ML 或數據科學背景。ML.NET工具(Visual Studio 中的 UI 模型生成器和跨平臺 ML.NET CLI),可根據您的場景和數據自動訓練自定義機器學習模型。
此版本ML.NET生成器帶來了許多錯誤修復和增強功能以及新功能,包括高級數據加載選項和來自 SQL Server的流訓練數據。
高級數據加載選項
以前,模型生成器不提供任何數據加載選項,它依賴于 AutoML 來檢測列、標頭和分隔符以及十進制分隔符樣式。
讓我們看一下模型生成器中使用出租車費數據集中新的高級數據加載選項。這是一個回歸問題,您可以根據旅行距離、付款類型和乘客人數等幾個因素預測出租車票價金額。
在模型生成器中,選擇值預測方案和本地訓練環境后,您將最終進入"數據"步驟。選擇"文件"作為數據源類型,瀏覽出租車票價數據集,選擇數據集后,將"列"更改為"預測" fare_amount。
?
?
選擇"高級數據"選項以打開高級數據加載選項對話框。
?
?
在此對話框中,有兩個部分 -列設置和數據格式。
列設置
在"列設置"部分中,您可以將每個要素列(用于預測標簽的列)的列更改為分類、文本、數字或忽略:
分類列包含在標記組離散數量中的數據。例如,付款類型可以是 CSH(現金)或 CRD(卡)分類。
文本列包含自由格式文本形式的字符串。例如,如果您有一個模型,該模型預測出租車乘客留下的關于其乘坐的評論是正面的還是負面的,則包含自由格式注釋的列將具有 Text 的列目的。
數字列僅包含數字(浮點或整數)。在出租車票價示例中,行程距離和行程時間都是數字列。
您可以忽略不想用于訓練的列。
通常,模型生成器會確定合適的列能正常執行,但在某些情況下,它可能會推斷錯誤或可能選擇一個列,使模型性能稍微差一些。例如,在出租車票價示例中,模型生成器為"passenger_count"選擇分類,可能默認就是數字列。
您可以使用模型生成器選擇的默認設置嘗試訓練,然后嘗試將 passenger_count 的列更改為數字,以查看它如何影響模型的性能。
?
?
數據格式
在"數據格式"部分中,您可以覆蓋模型生成器選擇的以下數據加載選項:
數據集是否具有列標題
列分隔符(逗號、分號或制表符)
十進制分隔符(十進制點或逗號)
?
?
保存數據格式選項后,可以在"數據預覽"中看到它如何影響數據集。
使用數據庫加載程序從 SQL Server流式傳輸
模型生成器現在利用數據庫加載器!
以前,如果您的訓練數據存儲在 SQL Server 中,模型生成器將在本地下載數據,然后進行訓練。現在,模型生成器將直接從 SQL Server 加載和訓練數據,而無需加載內存中的所有數據,因此它可以處理大小高達 TB 的巨大數據集。
入門和資源
如果您遇到任何問題,請通過在 GitHub 中創建問題(或使用模型生成器中的新反饋按鈕)提交!
ML.NET API
ML.NET工具(模型構建器ML.NET CLI)
開始學習 ML.NET,詳細了解有關 Microsoft 文檔中ML.NET模型生成器。
總結
以上是生活随笔為你收集整理的ML.NET生成器带来了许多错误修复和增强功能以及新功能的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信适配国产操作系统:原生支持 Linu
- 下一篇: Flash 生命终止,HTML5能否完美