[特征工程系列一] 论特征的重要性
滿打滿算,還有十天左右就要過年了,這些天大家或多或少都有點浮躁。反過來想,趁大家都懈怠的時候,正是學習的最佳時機。趁著這幾天,也給自己加點碼,去認真的再看一下特征工程。我給自己列了下面的這一份學習清單,也會在過年前后逐一分享給大家。
《特征工程系列二,顯性特征的基本處理方法》:講一下如何處理數據特征,以及最基本的概念
《特征工程三,顯性特征的衍生》:準備通過NBA球星的數據,展示下特征的衍生的一些概念
《特征工程四,Wide&Deep Learning for Recommender Systems》:講一下如何通過線性算法的顯性特征以及深度學習NN算法中的提取的隱式特征做推薦系統
《特征工程五,基于蒙特卡洛樹搜索的半自動特征工程方案》:特征工程需要大量的人工干預和專家經驗,那么能不能有一種方案去實現自動特征工程呢,純自己YY了一套可能的方案。
?
下面我們進入今天的正題,特征工程有多重要,可以引用一句話來表達:“數據和特征決定了模型的上限,算法只是在幫忙逼近這個上限。”好的特征是決定一個模型準確率的關鍵,那問題來了?什么是特征呢,特征就是數據對于結果的一種描述。比如我們形容一個人是否漂亮,那她的眼睛大小、鼻子的形狀、臉型都是特征。通常,當獲得一份結構化數據的時候,如果這份數據里存在目標列,那么除了目標列每個字段都可以看做是特征,特征工程要做的事情是找到對結果影響最大的特征。
?
了解了特征的重要性,我們就可以開啟這一系列文章的分享了,不過在此之前,有幾個概念需要再明確下。特征分哪幾種呢?
1.????顯性特征:可以理解為用戶直接可以拿到的數據字段
2.????半隱性特征:用戶數據在通過GBDT等算法的計算過程中產出的一些特征
3.????隱性特征:深度學習在很大程度上可以簡化人肉特征工程的工作量,因為深度學習可以在計算過程中自動生成一些特征向量,這些特征的表達往往是不可解釋的,那這些特征就是隱性特征。
Ok~同步完這些概念,開啟沖刺,年前要好好學習并分享特征工程的系列文章。
總結
以上是生活随笔為你收集整理的[特征工程系列一] 论特征的重要性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习实现NBA球星颜值打分完整案例(
- 下一篇: [特征工程系列二]显性特征的基本处理方法