ML.NET Cookbook:(20)我如何定义自己的数据转换?
ML.NET有很多內(nèi)置的轉(zhuǎn)換器,但是我們不可能涵蓋所有內(nèi)容。不可避免地,您將需要執(zhí)行自定義的用戶定義操作。為此,我們添加了MLContext.Transforms.CustomMapping就是為了這個(gè)目的:這是用戶定義的數(shù)據(jù)的任意映射。
假設(shè)我們有一個(gè)帶有float數(shù)據(jù)的'Income'列的數(shù)據(jù)集,我們要計(jì)算'Label',如果收入超過(guò)50000,則等于true,否則等于false。
這是我們?nèi)绾瓮ㄟ^(guò)自定義轉(zhuǎn)換器執(zhí)行此操作的方法:
//?為我們打算使用的所有輸入列定義一個(gè)類。 class?InputRow {public?float?Income?{?get;?set;?} }//?為我們打算產(chǎn)生的所有輸出列定義一個(gè)類。 class?OutputRow {public?bool?Label?{?get;?set;?} }public?static?IDataView?PrepareData(MLContext?mlContext,?IDataView?data) {//?定義操作代碼。Action<InputRow,?OutputRow>?mapping?=?(input,?output)?=>?output.Label?=?input.Income?>?50000;//?創(chuàng)建一個(gè)定制的估計(jì)器并轉(zhuǎn)換數(shù)據(jù)。var?estimator?=?mlContext.Transforms.CustomMapping(mapping,?null);return?estimator.Fit(data).Transform(data); }您還可以在估計(jì)器管道中插入自定義映射:
public?static?ITransformer?TrainModel(MLContext?mlContext,?IDataView?trainData) {//?使用自定義操作。Action<InputRow,?OutputRow>?mapping?=?(input,?output)?=>?output.Label?=?input.Income?>?50000;//?構(gòu)建學(xué)習(xí)管道。var?estimator?=?mlContext.Transforms.CustomMapping(mapping,?null).AppendCacheCheckpoint(mlContext).Append(mlContext.BinaryClassification.Trainers.FastTree(labelColumnName:?"Label"));return?estimator.Fit(trainData); }請(qǐng)注意,您需要將mapping操作變成“純函數(shù)”
它應(yīng)該是可重入的(我們將從多個(gè)線程同時(shí)調(diào)用它)
它不應(yīng)該有副作用(我們可以在任何時(shí)候任意調(diào)用,或忽略調(diào)用)
一個(gè)重要的警告是:如果希望自定義轉(zhuǎn)換成為已保存模型的一部分,則需要為其提供contractName。在加載時(shí),您需要向MLContext注冊(cè)自定義轉(zhuǎn)換器。
下面是一個(gè)完整的示例,用于保存和加載帶有自定義映射的模型。
///?<summary> ///?一個(gè)類包含我們的模型所需的自定義映射功能。 ///? ///?It?has?a?<see?cref="CustomMappingFactoryAttributeAttribute"/>?on?it?and ///?derives?from?<see?cref="CustomMappingFactory{TSrc,?TDst}"/>. ///?</summary> [CustomMappingFactoryAttribute(nameof(CustomMappings.IncomeMapping))] public?class?CustomMappings?:?CustomMappingFactory<InputRow,?OutputRow> {//?這是自定義映射。我們現(xiàn)在將它分離為一個(gè)方法,以便在訓(xùn)練和加載中都可以使用它。public?static?void?IncomeMapping(InputRow?input,?OutputRow?output)?=>?output.Label?=?input.Income?>?50000;//?當(dāng)加載模型以獲取映射操作時(shí),將調(diào)用此工廠方法。public?override?Action<InputRow,?OutputRow>?GetMapping(){return?IncomeMapping;} } //?構(gòu)建學(xué)習(xí)管道。請(qǐng)注意,我們現(xiàn)在為自定義映射提供了一個(gè)約定名稱:否則我們將無(wú)法保存模型。 var?estimator?=?mlContext.Transforms.CustomMapping<InputRow,?OutputRow>(CustomMappings.IncomeMapping,?nameof(CustomMappings.IncomeMapping)).Append(mlContext.BinaryClassification.Trainers.FastTree(labelColumnName:?"Label"));//?如果內(nèi)存足夠,我們可以將數(shù)據(jù)緩存在內(nèi)存中,以避免在多次訪問(wèn)文件時(shí)從文件中加載數(shù)據(jù)。 var?cachedTrainData?=?mlContext.Data.Cache(trainData);//?訓(xùn)練模型 var?model?=?estimator.Fit(cachedTrainData);//?保存模型。 using?(var?fs?=?File.Create(modelPath))mlContext.Model.Save(model,?fs);//?現(xiàn)在假設(shè)我們?cè)谝粋€(gè)不同的過(guò)程中。//?向ComponentCatalog注冊(cè)包含“CustomMappings”的程序集,以便在加載模型時(shí)可以找到它。 newContext.ComponentCatalog.RegisterAssembly(typeof(CustomMappings).Assembly);//?現(xiàn)在我們可以加載模型了。 ITransformer?loadedModel?=?newContext.Model.Load(modelPath,?out?var?schema);歡迎關(guān)注我的個(gè)人公眾號(hào)”My IO“
總結(jié)
以上是生活随笔為你收集整理的ML.NET Cookbook:(20)我如何定义自己的数据转换?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 面向.NET开发人员的Dapr——分布式
- 下一篇: Windows 程序包管理器 1.0 正