Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
Dataset之HiggsBoson:Higgs Boson(Kaggle競(jìng)賽)數(shù)據(jù)集的簡(jiǎn)介、下載、案例應(yīng)用之詳細(xì)攻略
?
?
目錄
Higgs Boson比賽簡(jiǎn)介
Higgs Boson數(shù)據(jù)集的下載
Higgs Boson數(shù)據(jù)集的案例應(yīng)用
?
?
?
Higgs Boson比賽簡(jiǎn)介
? ? ? ?希格斯玻色子(英語:Higgs boson),是標(biāo)準(zhǔn)模型里的一種基本粒子,是一種玻色子,自旋為零,宇稱為正值,不帶電荷、色荷,極不穩(wěn)定,生成后會(huì)立刻衰變。希格斯玻色子是希格斯場(chǎng)的量子激發(fā)。希格斯粒子的衰變能動(dòng)會(huì)生成耦合實(shí)粒子。根據(jù)希格斯機(jī)制,基本粒子因與希格斯場(chǎng)耦合而獲得質(zhì)量。假若希格斯玻色子被證實(shí)存在,則希格斯場(chǎng)應(yīng)該也存在,而希格斯機(jī)制也可被確認(rèn)為基本無誤。
? ? ? ?希格斯玻色子(英語:Higgs boson)是標(biāo)準(zhǔn)模型里的一種基本粒子,是因物理學(xué)者彼得·希格斯而命名。 2012年7月4日,歐洲核子研究組織(CERN)宣布,LHC的緊湊渺子線圈(CMS)探測(cè)到質(zhì)量為125.3±0.6GeV的新玻色子(超過背景期望值4.9個(gè)標(biāo)準(zhǔn)差),超環(huán)面儀器(ATLAS)測(cè)量到質(zhì)量為126.5GeV的新玻色子(5個(gè)標(biāo)準(zhǔn)差),這兩種粒子極像希格斯玻色子。 2013年3月14日,歐洲核子研究組織發(fā)表新聞稿正式宣布,先前探測(cè)到的新粒子暫時(shí)被確認(rèn)是希格斯玻色子,具有零自旋與偶宇稱,這是希格斯玻色子應(yīng)該具有的兩種基本性質(zhì),但有一部分實(shí)驗(yàn)結(jié)果不盡符合理論預(yù)測(cè),更多數(shù)據(jù)仍在等待處理與分析。 2013年10月8日,因?yàn)椤按卧恿W淤|(zhì)量的生成機(jī)制理論,促進(jìn)了人類對(duì)這方面的理解,并且最近由歐洲核子研究組織屬下大型強(qiáng)子對(duì)撞機(jī)的超環(huán)面儀器及緊湊μ子線圈探測(cè)器發(fā)現(xiàn)的基本粒子證實(shí)”,弗朗索瓦·恩格勒、彼得·希格斯榮獲2013年諾貝爾物理學(xué)獎(jiǎng)。
? ? ? ?一個(gè)粒子的重要特點(diǎn)是它在其他粒子之后延遲多少。CERN用ATLAS進(jìn)行物理實(shí)驗(yàn)來尋找新粒子。實(shí)驗(yàn)最近發(fā)現(xiàn)一個(gè) Higgs boson延遲在兩個(gè)tau粒子出現(xiàn),但是該延遲只是淹沒在背景噪聲中的小信號(hào)。
競(jìng)賽官網(wǎng):?https://www.kaggle.com/c/higgs-boson/
相關(guān)介紹:Higgs boson machine-learning challenge
? ? ? ?該競(jìng)賽的目的是利用機(jī)器學(xué)習(xí)方法,提高ATLAS實(shí)驗(yàn)發(fā)現(xiàn)粒子的顯著性。競(jìng)賽無需粒子物理的背景知識(shí)(解決實(shí)際問題時(shí)背景知識(shí)在很大程度上還是有用的)。競(jìng)賽數(shù)據(jù)是根據(jù)ATLAS檢測(cè)到的事件的特征合成的數(shù)據(jù),競(jìng)賽任務(wù)是將事件分類為"tau tau decay of a Higgs boson" 或 "background"
? ? ? 這是一個(gè)兩類分類任務(wù):將事件分類為"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子機(jī)器學(xué)習(xí)挑戰(zhàn)的目標(biāo)是探索先進(jìn)機(jī)器學(xué)習(xí)方法的潛力,提高實(shí)驗(yàn)發(fā)現(xiàn)的意義。不需要粒子物理學(xué)知識(shí)。使用ATLAS檢測(cè)到的具有表征事件特征的模擬數(shù)據(jù),您的任務(wù)是將事件分類為"tau tau decay of a Higgs boson" 或 "background"。
- 每個(gè)事件有一個(gè)ID,30個(gè)特征,權(quán)重,和標(biāo)簽
- 用交叉驗(yàn)證選擇迭代次數(shù)
- 與sklearn中的GBM速度與性能比較
1、數(shù)據(jù)集介紹
File descriptions
- training.csv?- Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.
- test.csv?- Test set of 550000 events with an ID column and 30 feature columns.
- random_submission?- Sample submission file in the correct format. File format is described on the?Evaluation?page.
- HiggsBosonCompetition_AMSMetric?- Python script to calculate the competition evaluation metric.
For detailed information on the semantics of the features, labels, and weights, see the?technical documentation?from the?LAL website?on the task.
Some details to get started:
- all variables are floating point, except?PRI_jet_num?which is integer
- variables?prefixed with?PRI?(for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.
- variables prefixed with?DER?(for DERived) are quantities computed from the primitive features, which were selected by ?the physicists of ATLAS
- it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is ?999.0, which is outside the normal range of all variables
training.csv:訓(xùn)練集包含250000個(gè)事件,每個(gè)事件有一個(gè)ID,30個(gè)特征,權(quán)重,和標(biāo)簽。?
test.csv:測(cè)試數(shù)據(jù)包含550000事件,每個(gè)事件包含一個(gè)ID和30個(gè)特征。
(1)、所有變量都是floating point類型,除了PRI_jet_num 為integer 以PRI (PRImitives) 為的前綴特征為檢測(cè)器測(cè)量得到的關(guān)于bunch collision“原始” 數(shù)據(jù)。 以DER ( DERived)為ATLAS的物理學(xué)家選擇的根據(jù)原始特征計(jì)算得到的數(shù)據(jù)。 缺失數(shù)據(jù)記為 ?999.0, 與所有特征的正常值不同。
(2)、特征、權(quán)重和標(biāo)簽的具體語意可以查看CERN的技術(shù)文檔。
?
2、比賽排行榜
?
?
Higgs Boson數(shù)據(jù)集的下載
本數(shù)據(jù)集,如有需要,可留言向博主索取
?
?
?
?
?
Higgs Boson數(shù)據(jù)集的案例應(yīng)用
ML之xgboost:基于xgboost(5f-CrVa)算法對(duì)Higgs Boson數(shù)據(jù)集(Kaggle競(jìng)賽)訓(xùn)練(模型保存+可視化)實(shí)現(xiàn)二分類任務(wù)
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML之FE:数据处理—特征工程之稀疏特征
- 下一篇: ML之xgboost:基于xgboost