数据科学导论 考试有感 2019 山东大学
生活随笔
收集整理的這篇文章主要介紹了
数据科学导论 考试有感 2019 山东大学
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據科學導論 考試有感 2019 山東大學
- 數據科學導論
數據科學導論
平時分50分 有4個實驗 兩個人一組
爬蟲、實體融合、twitter、MapReduce
3道題
- 簡答:各種距離
- 設計:MapReduce
- 算法:PersonalRank
如果是非數據科學方向的同學,一定慎重,復習就像開天辟地。我們本學期是計算機網絡考完后隔一天考數據科學導論,時間比較緊,大致整理如下。具體內容我有上傳word資源。
- 大數據
- 云計算
- 文本分析
- 文本特征提取
- 輸入單詞、id,輸出詞袋向量
- 理解詞袋的表示方式,優缺點
- 輸入句子,給出N-Gram表示
- 數據科學有什么難點
- 數據科學解決問題的步驟
- 數據質量如何評估
- 數據質量評估存在的問題
- 臟數據以及處理
- ETL(數據倉庫技術)
- 數據清洗和集成流程
- 數據清洗
- 數據集成
- 探索性分析方法
- 眾包
- 數據分析
- 流程
- Apriori/無監督學習
- 數據分析算法類型(關聯/分類/聚類)
- 關聯分析
- 你知道的數據分析算法
- 支持度、置信度、提升度的計算
- Hadoop
- 特性
- 與Spark比較
- 分布式存儲
- 與集中式存儲比較
- 結構
- 設計需求
- GFS
- HDFS
- 優缺點
- 相關概念
- HDFS
- NAMENODE和DATANODE
- 體系結構
- 概述
- 命名空間管理
- 通信協議
- 客戶端
- 局限性
- 存儲
- 冗余數據保存
- 數據存取策略
- 錯誤與恢復
- 讀、寫
- 從HDFS讀取內容
- MapReduce
- 概述
- 分布式并行編程
- 簡介
- 工作過程
- 概述
- 各執行階段
- Combine
- Shuffle詳解
- MapReduce與Spark處理速度比較
- 歸納
- PersonalRank
- PageRank
- “反復改進原理”(迭代)是基本手段
- 中樞值與權威值及其計算(HITS算法)
- PageRank含義及其計算
- PageRank的同比縮減與統一補償規則
- 結構化數據、半結構化數據、非結構化數據
- 測量距離
- 歐氏距離(Euclidean Distance)
- 曼哈頓距離(Manhattan Distance)
- 編輯距離(Levenshtein)
- 切比雪夫距離
- 海明距離
- 馬氏距離
- ML
- KNN
- k-means/聚類
- Choosing clustering dimension
- Linear-Regression
- 最小二乘法
- 損失函數
- 檢測模型質量
- 過擬合/over-fitting
- 交叉驗證
- 無監督學習/監督學習
總結
以上是生活随笔為你收集整理的数据科学导论 考试有感 2019 山东大学的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机网络考试有感 2019 山东大学
- 下一篇: leetcode-简单题-题序:1+7