22选5开奖视频
簡體 繁體
  • “數創嶺南”職工大數據應用技能邀請賽
  • “摩數杯”工業互聯網暨大數據應用創新挑戰賽

“數創嶺南”職工技能賽賽題介紹與數據下載

下載數據

  • 賽題介紹

          隨著計算能力、存儲空間、網絡的高速發展,人類所積累的數據量正在快速增長,而對特定數據的分類算法就顯得尤為重要。分類是一項非常有應用價值的技術之一,它的應用遍及了社會中的各個領域,尤其是對多標簽分類問題的解決方法,是機器學習中一個重要的研究領域。

  • 數據集描述

          本次大賽提供數據集反映的是不同地塊的植被類型情況。通過海拔、坡度、到水源的距離、地塊位置等特征項,對地塊植被的類型進行預測(7個類型)。數據集中共有 13個特征,由 55 列數據組成。

    如下圖所示:

    字段名稱 數據類型 量度單位 描述
    Elevation 定量數據 海拔高度
    Aspect 定量數據 方位角
    Slope 定量數據 坡度
    Horizontal_Distance_To_Hydrology 定量數據 與最近水文特征的水平距離
    Vertical_Distance_To_Hydrology 定量數據 與最近水文特征的垂直距離
    Horizontal_Distance_To_Roadways 定量數據 與最近道路的水平距離
    Ground position 定性數據 a-l 地塊位置
    Hillshade_9am 定量數據 0至255的索引 早上9:00光的投射度(夏至)
    Hillshade_Noon 定量數據 0至255的索引 正午光的投射度(夏至)
    Hillshade_3pm 定量數據 0至255的索引 下午3:00光的投射度(夏至)
    Horizontal_Distance_To_Fire_Points 定量數據 與最近燃火點的距離
    Wilderness_Area (4個二元列) 定性數據 0或1(缺失/存在) 荒野地區等級
    Soil_Type (40個二元列) 定性數據 0或1(缺失/存在) 土壤類型等級
    Cover_Type (7種) 整數 0至7 地表覆蓋類型
  • 數據集提供方式

          這是一個模擬真實情況的過程,數據是分階段提供的,并且包含約1‰~2‰的噪聲值。每個階段,會提供不等數量的訓練和預測數據集,選手通過訓練數據進行建模、優化算法,并在測試集進行預測,每個階段的預測準確率都將計入第一輪實操賽的總成績。

    · 第一階段提供10萬條訓練數據,預測2萬條。時間:8月20日00:00—9月5日23:59;
    · 第二階段提供12~15萬條訓練數據,預測3萬條。時間:9月6日00:00—9月21日23:59;
    · 第三階段提供12~15萬條訓練數據,預測3萬條。時間:9月22日00:00—10月8日23:59。
       

          建議選手在考慮準確率的同時,需要考慮計算效率(運算時間),計算效率將作為第三輪答辯賽的其中一個評分指標。最終總決賽評委會根據實操賽、理論賽成績以及現場答辯的表現對選手進行綜合評分。

  • 評分標準

          大賽平臺將自動計算每一個階段測試數據集中預測分類的準確率。

          本次采用宏平均值(Macro-averaging)作為各階段的評價指標。

          宏平均(Macro-averaging),是先對每一個類統計指標值(F1-Score),然后再對所有類求加權(Qi=各類型樣本量占比)平均值。

          在第一輪實操賽的三個階段,將依據參賽隊伍的預測準確率(宏平均值)進行排名,準確率越高,則排名越靠前。參賽選手可以不斷優化模型,通過平臺提交結果,每天最多提交3次。

    · 第一輪實操賽最終總得分規則如下:

    實操賽總排名按照如下公式計算:

    (第一階段預測準確率*30%+第二階段預測準確率*35%+第三階段預測準確率*35%)

    實操賽標準分 = 100-(100*P1-50)/N1,P1為選手在實操賽的綜合排名,N1為參加實操賽的選手人數。

  • 競賽結果提交

    請選手利用建立的模型對每階段提供的預測數據集中的地塊植被類型(BD列)

    進行預測(7類),預測結果按如下格式保存成CSV格式提交。

    預測結果(1/2/3/4/5/6/7)

    預測結果(1/2/3/4/5/6/7)

    預測結果(1/2/3/4/5/6/7)

    ......

    預測結果(1/2/3/4/5/6/7)

  • 挖機設備數據

    下載數據

    數據支持:樹根互聯技術有限公司

    主要字段
    數據采集、TRU系統故障字_字故障碼、TRU報警合并字_字報警碼、檔位、HCU報警合并字、動作編號_故障處理狀態、裝車次數_握手開關量、工作模式、顯示屏操作開關量、輸入開關量等。
  • 機床設備數據

    下載數據

    數據支持:樹根互聯技術有限公司

    主要字段
    采集時間、執行的NC主程序號、當前執行NC程序號、加工零件數、模式選擇、是否報警狀態、是否急停、是否停機、CNC當前所處狀態模式、當前報警號、報警類型等。
  • 共享單車數據

    下載數據

    數據支持:ofo小黃車

    主要字段
    車輛標識(車牌)、投放日期、車輛狀態、定位更新時間、車輛實施坐標經緯度、車鎖編碼。
  • 家具、家電電商數據

    下載數據

    數據支持:浪潮軟件股份有限公司

    主要字段
    商品ID、商品名稱、品牌ID、品牌名稱、購買價格、參考價格、評價數、收藏數、庫存、發貨地等。
  • 佛山用戶近6個月文獻下載記錄

    下載數據

    數據支持:同方知網(北京)技術有限公司廣東分公司

    主要字段
    產品ID、大小、頁碼、頁數、描述、下載類型、時間、專題ID、發表年份、年份。
22选5开奖视频 下载赌博澳门官方网站 时时彩双胆三期方法 天津快乐十分100%预测 在长沙开洗车店赚钱吗 安徽时时走势图 北单上单下双玩法 疯狂德州 齐天大圣捕鱼游戏 时时彩平台下载 巅峰娱乐输了几十万