国产精品妇女一二三区,装睡被陌生人摸出水好爽,成人VA亚洲VA欧美天堂,亚洲AV永久无码精品一区二区

新聞

產(chǎn)品

新聞

News Information

210億顆晶體管加持 金山云全國首家商用Tesla V100

來源:沐金官網(wǎng)瀏覽次數(shù):1163 時(shí)間:2018-06-05 16:00:09.0

  2018年被稱為AI全面迸發(fā)的元年,大量AI職業(yè)運(yùn)用逐步落地,帶來了生產(chǎn)功率及生活品質(zhì)的大幅提高,催生出了愈加多元化的商業(yè)價(jià)值。而伴隨著AI開展進(jìn)入深水區(qū),待處理數(shù)據(jù)量空前龐大,算法復(fù)雜度出現(xiàn)指數(shù)級(jí)增長,能否供給更快更強(qiáng)的核算力,成為AI保持高速開展的關(guān)鍵因素。
  面向用戶日益增長的關(guān)于構(gòu)建更智慧AI運(yùn)用的核算需求,供給功用愈加強(qiáng)悍、彈性易擴(kuò)展和高性價(jià)比的云上核算才能,成為業(yè)界的一起方針。金山云根據(jù)對(duì)用戶需求的深入把控,于近期正式推出了根據(jù)NVIDIA Tesla V100的GPU云效勞器,支撐最高15*8 TFLOPS的單精浮點(diǎn)核算才能和125*8TFLOPS的混合精度(FP16/FP32)矩陣核算才能,使深度學(xué)習(xí)練習(xí)與推理進(jìn)程功用提高300%,而本錢保持不變。
  作為國內(nèi)首家正式公開售賣的根據(jù)Tesla V100的GPU云效勞器,運(yùn)用了創(chuàng)新的Tensor Core引擎,將混合精度浮點(diǎn)的核算才能再提高10倍以上,在整體深度學(xué)習(xí)的練習(xí)與推理運(yùn)用中比較于上一代PASCAL渠道有了3倍功用提高,可輕松應(yīng)對(duì)深度學(xué)習(xí),科學(xué)運(yùn)算、圖形圖像烘托等許多運(yùn)用場景,有用縮短在線猜測和離線練習(xí)時(shí)長。
  現(xiàn)在根據(jù)V100的GPU加速核算效勞已全面商用,為包含小米等在內(nèi)的許多客戶供給著高功用的核算支撐。小米最新發(fā)布的年度旗艦手機(jī)小米8,其AI加持的全面屏系統(tǒng)MIUI 10、AI相機(jī)、AI語音助理“小愛同學(xué)”等,背面均有金山云尖端GPU資源供給的核算效勞,極大提高了產(chǎn)品的研制功率和運(yùn)用體會(huì)。
  在根底結(jié)構(gòu)層面,Tesla V100總共包含了210億顆晶體管,搭載了84個(gè)SM(流多處理器)單元,其間有用單元有80個(gè),每個(gè)SM單元中有64個(gè)單精度的處理單元CUDA Core以及8個(gè)混合精度的矩陣運(yùn)算單元Tensor Core,總計(jì)共有5120個(gè)CUDA Core和640個(gè)Tensor Core,搭載16GB的HBM 2的顯存,帶寬可以高達(dá)900GB/s,并且支撐300GB/s雙向帶寬的NVLink2.0的主線協(xié)議。
  全新的Volta架構(gòu)示意圖
  在線程分配層面,V100是首款支撐獨(dú)立線程調(diào)度的GPU,答應(yīng)GPU執(zhí)行任何線程,然后程序中的并行線程之間能完結(jié)更精密的同步與協(xié)作,運(yùn)用戶能在更復(fù)雜多樣的運(yùn)用程序上高效地作業(yè)。首創(chuàng)的Tensor Core打破了單處理器的最快處理速度記載,可以供給比功用單一的ASIC更高的功用,在不同作業(yè)負(fù)載下依然具備可編程性。
  Tensor Core打造更專業(yè)的深度學(xué)習(xí)核算單元
  Tensor Core是Volta架構(gòu)最重磅的特性,是專門針對(duì)深度學(xué)習(xí)運(yùn)用而規(guī)劃的專用ASIC單元,是一種矩陣乘累加的核算單元。(矩陣乘累加核算在Deep Learning網(wǎng)絡(luò)層算法中,比方卷積層、全銜接層等是最重要、最耗時(shí)的一部分)。Tensor中心每個(gè)時(shí)鐘周期可執(zhí)行64次浮點(diǎn)混合乘加(FMA)運(yùn)算,然后為練習(xí)和推理運(yùn)用程序供給高達(dá)125 TFLOPS的核算功用。
  更強(qiáng)悍的核算才能意味著開發(fā)人員可以運(yùn)用混合精度(FP16核算運(yùn)用FP32累加)執(zhí)行深度學(xué)習(xí)練習(xí),然后完結(jié)比上一代產(chǎn)品快3倍的功用,并可收斂至網(wǎng)絡(luò)預(yù)期準(zhǔn)確度,現(xiàn)在Tensor Core可以支撐的深度學(xué)習(xí)結(jié)構(gòu)有Caffe、Caffe2、MXNet、PyTorch、Theano、TensorF low等。
  此外,Tesla V100的NVLink版別支撐NVLink2.0高速互聯(lián)總線協(xié)議,Tesla P100支撐的NVLink1.0協(xié)議,每顆GPU可以銜接4根總線,每根總線的單向傳輸帶寬可以到達(dá)20GB/s,四根總線可以完結(jié)單向80GB/s、雙向160GB/s的IO帶寬。而Tesla V100支撐最新的NVLink2.0協(xié)議,每顆GPU最多可以完結(jié)六根總線互聯(lián),每根總線的單向傳輸帶寬可以到達(dá)25GB/s,六根總線可以完結(jié)單向150GB/s、雙向300GB/s的IO帶寬,比較NVLink1.0,帶寬簡直提高了1倍。
  高混合精度核算才能讓核算更高效
  Tesla V100有NVLink和PCIe兩個(gè)版別,核算中心都是GV100,均有5120個(gè)CUDA Cores以及640個(gè)Tensor Cores,NVLink版別主頻略高,雙精度浮點(diǎn)核算才能到達(dá)7.5TFLOPS,單精度浮點(diǎn)核算才能到達(dá)了15TFLOPS,而混合精度核算才能可以到達(dá)125 TFLOPS,PCIe版別有7TFLOPS雙精度浮點(diǎn)核算才能、14TFLOPS單精度浮點(diǎn)核算才能和112個(gè)TFLOPS混合精度核算才能。
  在練習(xí)ResNet-50時(shí),單個(gè)V100 Tensor Core GPU的處理速度能到達(dá)1075張圖像/秒,與上一代Pascal GPU比較,它的功用提高了4倍。據(jù)測算,假如有100萬張圖片需求學(xué)習(xí),理論上僅需約15分鐘即可練習(xí)完結(jié)。
  NVLink和PCIe版別Tesla V100比照
  金山云作為國內(nèi)首家正式商用Tesla V100的云效勞廠商,現(xiàn)在在售根據(jù)V100的效勞器有GPU云效勞器(P4V系列)和GPU物理效勞器(P4E系列)。杰出的深度學(xué)習(xí)核算功用,讓用戶可以愈加快速、高效構(gòu)建AI事務(wù),彈性易擴(kuò)展和高性價(jià)比的特性,可以為用戶節(jié)省大量核算本錢,有用下降A(chǔ)I開發(fā)的時(shí)刻危險(xiǎn),提高企業(yè)AI競爭力。

和政县| 甘洛县| 滦平县| 呼伦贝尔市| 张家港市| 巴塘县| 浦城县| 公主岭市| 枣阳市| 理塘县|