todo 一些杂记
對機器學習的一些理解
仿生算法:神經網絡里的連接矩陣里記錄了變換(卷積核是局部連接,全連接是全面連接,transformer是稀疏的全連接,RNN是加入了時間維度的全連接),神經細胞胞體里的激活函數記錄了非線性變換。
網絡的本質:
- 信息的容器,
- 信息過濾算法容器。?
輸入真實世界的數據,用適合的容器,用合適的算法才能容納、處理數據,例如卷積(高效)、RNN(時間維度的引入)、詞嵌入(高效)、transformer(聯想),yolo(端到端的思想),gan(壓縮到基本維度,從稀疏矩陣到稠密矩陣,再次擴張到稀疏矩陣)
工程實現的條件:
- 更多的數據? ? ??--更好的表征世界,
- 更大的模型? ? ??-學習更多內容,網絡有更多容量
- 更強的算力? ? ??更高的每瓦算力,更快的訓練速度和推力速度,(cpu,gpu,憶阻器)
- 更好的算法框架(學習能力)
- 更好的可解釋性,安全性。視覺化--聚類算法,0shot 先驗知識的植入--gpt的預訓練+微調
- 成本、速度、能耗的平衡
todo 如果用教師網絡(多個)做自動標簽,是否可以訓練出一個能夠?充分提取照片信息的網絡??
進而,是否能夠做到網絡的可追因性?可解釋性?
每個實例只有很少維度信息,但是數據集包含多個維度信息,
FPN(Feature Pyramid Networks):特征金字塔網絡? 能夠從不同幾何尺度提取信息
todo 深度網絡和詳細標簽的探索目的現在的深度網絡僅僅提取了一部分的照片信息,原因是標簽不充分.如果用教師網絡(多個)做自動標簽,是否可以訓練出一個能夠充分提取照片信息的網絡?進而,是否能夠做到網絡的可追因性?可解釋性? 輸入,人臉, 輸出,五官性別,年齡,膚色,種族,發型,飾品(眼鏡,耳環,刺青),表情,人臉3D位姿,相機3D位姿,眼睛的視線3D位姿燈光todo 算法 attention 里面有很多被transformer (或 RNN) 瓶頸算法 壓縮的高維信息 ,是否可以用于計算機視覺里多物體表征
todo 建立一個模型 抽取雙目視差圖片的立體信息
- 先分割再融合雙目以降低算量
- 同時分割+雙目,以補充深度信息,更有利于分割。
- 人類V1區有左右眼疊層結構,構建空間感。輔助算法:光圈blur、雙目對準,多次視覺焦點跳躍、三維空間記憶。
?
todo? yolo? 是不是已經有了逆向預測的雛形,或者是預測訓練并記憶了全息信息
yolo 1 最后輸出了 7格子x 7格子x (5預測框+ 5預測框+ 20類別)yolo 同時預測了 類別, 和位置(+置信度)雖然不是預測了類別+位置 然后逆推各個部件,然后看逆推的部件和輸入的部件是否匹配, 但是也可以認為,在訓練階段已經隱式地做了這個工作,并將信息記錄在網格當中.可以結合2階段模型改進yolo,讓第一階段預測出實體,第二階段 看逆推的部件和輸入的部件位姿是否匹配 ,部件是否匹配也許會極大的改善top1的正確率. 也許還能改進top5正確率需要很好的標注數據集,,全景實例分割(全圖全類別標注)為降低標注成本,可以用電腦動畫生成. 改造yolo讓yolo預測主體的位姿,并預測各個子部件的位姿,可以更充分地挖掘訓練集的信息關鍵點骨架模型也許可以幫助自動標注圖片,完善訓練集,也可以用電腦動畫生成.todo 如何用簡單的規則,實現復雜的好結果?
壓縮擴張(復現)結構,gan和視覺分割使用了這個思想。
todo 多對比試驗,確定瓶頸容量的大小, 手位姿,人體位姿,物體分割
端到端的結構,yolo訓練的結果是同時輸出 標注物體類別和位置。不再用二級網絡。
ResNet論文 中 添加了一個短路的路徑,相當與魔改了網絡的結構,讓網絡實現了長程的聯想,記憶和注意力,最后得到了好的效果.沿著這個思路, 向網絡中添加簡單的結構,添加空間和時間,添加逆向的聯想(大部件的子部件),添加和諧度檢測(五官的朝向是否一致,異常的不符合預期的物品亂放),手動或自動嵌入100個詞todo 如何添加這種簡單結構GAN 生成輸出MAE 補全圖片YOLO 端到端的結構生物腦中的位置細胞和網格細胞諧度檢測從正向的角度,如果各個元素的和諧度很高,說明世界符合神經網絡的記憶從逆向預測的角度,如果各個元素的和諧度很高,說明網絡的輸出和判斷是正確的.可以用這種方法,從幾個預測結果中挑出一個對的.=============================todo 數據集的分析,看訓練數據集覆蓋了多少從角度(位姿)從燈光從色彩從人物動作然后統計一個圖表或空洞圖,空洞表示數據集沒有覆蓋的空間人類生活在3維空間和1維時間中, 因為有立體視覺(立體聽覺),能夠正確的反映真實世界的數據分布。
todo? Hinton 的路由網絡試圖將世界表征為 3維,有改進空間。
?
預測的算法,作用
1,減少計算量,
能在低分辨率情況下,不使用高分辨率。不在每一幀里都使用預測。
計算的稀疏性:根據外部客觀環境的持續性,仿生青蛙對運動物體敏感性,自動過濾不運動的物體。
2,增加算法的有效性
對客觀環境的高分辨率,對環境中前景和背景3D位姿判別、3D協調性的判別,都需要大量計算,
可以抽取間隔幀計算,在保持算法有效性的同時減低計算量。
? ? 另外,加入記憶和預測,在slam中平滑環境的特征點,特征點的數量和位置不產生跳變。
算法? 反向解析
一個音軌可以理解為一種樂器演奏。音樂是由幾個到幾十個音軌組成。這些音軌是隨時間變化的機械波,一旦機械波組合起來(相加),反向解析成各自音軌的音符+音色就變的異常困難。
需要設計一個網絡,解決這個問題
基本組件, 多級時間片(金字塔)傅立葉變換(高時間分辨率和高頻率分辨率)----加上時間得到二維圖片----再次通過cnn(傅立葉變換)過濾出不同樂器(音色).不同音高
總結
- 上一篇: 2023秋招大厂经典面试题及答案整理归纳
- 下一篇: 云栖社区订阅周刊大盘点