Radeon Open Compute “ROCm” Stack v3.1 vydaný s RAS pre Vega 7nm, podpora SLURM pre lepšiu správu zdrojov, ale Navi stále chýba

Hardware / Radeon Open Compute “ROCm” Stack v3.1 vydaný s RAS pre Vega 7nm, podpora SLURM pre lepšiu správu zdrojov, ale Navi stále chýba 2 minúty prečítané

AMD Radeon



Nová verzia balíka Radeon Open Compute alebo „ROCm“ je teraz k dispozícii k dispozícii na stiahnutie. Radeon Open Compute v3.1 so sebou prináša pomerne veľa funkcií, ale napodiv stále chýba podpora AMD Navi aj GFX10.

ROCm, najbežnejšie akceptovaná univerzálna platforma pre výpočty akcelerované GPU, je teraz vo verzii 3.1. Posledná aktualizácia modulárnej platformy, ktorá umožňuje dodávateľom hardvéru vytvárať ovládače podporujúce rámec ROCm, obsahuje niektoré veľmi očakávané funkcie, ako je podpora RAS pre 7nm Vega a podpora SLURM pre GPU AMD. Z doposiaľ neznámych dôvodov však ROCm stále nemá úplnú podporu pre architektúru AMD Navi novej generácie.



Čo je nové v Radeon ROCm v3.1:

Najväčšia a najzrejmejšia zmena v novej inštalácii Radeon ROCm v3.1 je v štruktúre adresárov inštalácie ROCm. Nová inštalácia sady nástrojov ROCm nainštaluje balíčky do súboru / opt / rocm- priečinok. Predtým boli balíčky nástrojov ROCm nainštalované v / opt / rocm priečinok.



Nová verzia ROCm má vylepšenú podporu spoľahlivosti, prístupnosti a prevádzkyschopnosti (RAS) pre GPU Vega 7nm. Toto 7nm dielo Vega je pravdepodobne pod mikroskopom stále pre Vegánsky „Arcturus“ výpočtový akcelerátor prichádzajúci tento rok. Podpora zahŕňa:



  • UMC RAS ​​- HBM ECC (neopraviteľné vloženie chyby), vyradenie stránky, obnovenie RAS pomocou GPU (BACO) reset
  • GFX RAS - GFX, MMHUB ECC (neopraviteľná chybová injekcia), obnova RAS pomocou resetovania GPU (BACO)
  • PCIE RAS - PCIE_BIF ECC (neopraviteľná chybová injekcia), obnovenie RAS pomocou GPU (BACO) reset

Radeon ROCm v3.1 tiež získal podporu SLURM pre grafické karty AMD. SLURM alebo Simple Linux Utility pre správu zdrojov je jedným z vysoko preferovaných a ľahko používaných systémov na správu a plánovanie klastrov pre klastre Linux. SLURM je preferovaný kvôli tomu, že je open-source, odolný voči chybám a vysoko škálovateľný.

Tento systém teraz môže dobre interagovať s grafickými procesormi AMD. Posledná verzia SLURM 20.02.0 obsahuje doplnky AMD, ktoré umožňujú SLURM automaticky detekovať a konfigurovať grafické karty AMD. Taktiež zhromažďuje a hlási spotrebu energie grafických čipov. Podpora SLURM je užitočným doplnkom vzhľadom na zvyšujúci sa počet nasadení superpočítačov využívajúcich grafické karty Radeon a ďalšie väčšie klastre AMD GPU.

Napriek zahrnutiu niekoľkých funkcií stále neexistujú náznaky podpory GFX10 / Navi v ROCm. The Stránka GitHub pre ROCm bol aktualizovaný, aby odrážal všetky zmeny, poznámky k inštalácii a známe problémy.



Značky pozm