ARM: n taistelu datakeskuksesta: Kilpailijat

Ensimmäisenä yritysvalmiutena ARM-pohjaiset palvelimet lähestyvät entistä tarkemmin tietoja siitä, mihin nämä energiaa siputtavat järjestelmät pystyvät.

Tulevat 64-bittiset koneet on suunniteltu käsittelemään paljon laajempaa tehtävien määrää kuin muutama 32-bittinen ARM-pohjainen palvelin, jonka kourallinen yrityksiä on testannut tänä vuonna.

Sen sijaan, että palveltaisiin vain web-palveluita, näitä järjestelmiä rakennetaan myös syöttämään Hadoop-klusterien dataanalytiikkaa, hakemaan ja laittamaan tietoja NoSQL-tietovarastoihin, virtausmediaan ja korkean suorituskyvyn tietojenkäsittelyyn, jakamaan käsittelytehtäviä GPU: n, FPGA: n tai ASIC: n kanssa.

Tällaiset työt voidaan jakaa laskennallisesti kevyiksi työmääriksi ja käsitellä rinnakkain tuhansien wimpy-ydinprosessoreiden klusterien avulla. Nämä tiheät pienitehoisten palvelimien ryhmät voivat hoitaa nämä rinnakkain tehtävät tehokkaammin kuin pienempi määrä tehokkaita siruja, tuottaen paremman suorituskyvyn wattia ja neliöjalkaa kohti datakeskuksen tilaa, mikä on tärkeä toimenpide suuren palvelinrakennuksen hallinnan kustannusten alentamiseksi.

Tästä johtuen on kiinnostusta ottaa pieniä, energiatehokkaita ARM-pohjaisia ​​piirisarjoja, joita nykyään yleisemmin löytyy matkapuhelimista ja tablet-laitteista, ja käyttää niitä tiiviissä, pakatussa palvelinryhmässä.

Kohtuullinen osa näiden verkkopalvelun, data-analyysien, suoratoistovälineiden ja muiden töiden käsittelemiseen tarvittavista ohjelmistoista on tiellä, jotta ne olisivat valmiita tuotantokäyttöön ARM-pohjaisilla palvelimilla. Entä laitteisto?

Näiden palvelimien virtapiireinä ovat useiden yritysten piirisarjat - mutta syntyvän ARM-pohjaisen palvelintilan tärkeimpiä toimijoita todennäköisesti soveltaa Micro sen X-Gene-levyillä ja AMD: llä, joka on haarautumassa x86: n ulkopuolelle Opteron A1100 -prosessorillaan.

Nämä tulevat sirut perustuvat ARM v8 -arkkitehtuuriin, joka tukee ominaisuuksia, joita yritys pitää kriittisinä. Paitsi, että v8 on ensimmäinen ARM-arkkitehtuuri, joka tukee 64-bittisiä ytimiä, se tuo myös muita yritysluokan ominaisuuksia, kuten virheenkorjauskoodin (ECC) muisti.

Palvelimien piirisarjojen takana olevat yritykset olivat Hot Chips -konferenssissa Cupertinossa tällä viikolla yksityiskohtaisesti sirujensa ja niiden käyttämien palvelimien ominaisuuksista.

Käytetty Micro X-Gene

Milloin se on ulkona?

Piirille suunnitellaan kolme sukupolven X-Gene-järjestelmää. Ensimmäisenä palvelimien markkinoilla on X-Gene1-prosessori, jonka odotetaan olevan saatavana tuotantojärjestelmiin syksyllä. X-Gene-prosessoria testataan jo HP Moonshot -palvelimissa, se on esitelty HPC: ssä ja yrityskohtaisissa järjestelmissä Eurotechiltä, ​​E4: ltä ja Mitacilta.

Sen seuraaja, X-Gene 2, on nyt saatavissa näytteenottoon, ja X-Gene 3 on tarkoitus julkaista näytteenottoa varten vuonna 2015.

Tekniset tiedot

X-Gene 1: ssä on kahdeksan ydintä, jotka toimivat 2, 4 GHz: n taajuudella. Se tehdään 40 nm prosessiksi - mitä pienempi prosessi, sitä enemmän transistoreita voidaan puristaa sirujen pintaan, mikä mahdollistaa paremman prosessointitehon wattia kohti. Sirun superkalariarkkitehtuuri antaa sille mahdollisuuden käsitellä useampaa kuin yhtä käskyä prosessorijaksoa kohden, neljä ohjeen leveää prosessointiputkea, joka pystyy suorittamaan tilauksen ulkopuolella, optimoinnin, joka vähentää käsittelyohjeiden viivästyksiä. Applied Micro sanoo, että siru pystyy käsittelemään "yli 100 käskyä lennossa".

Jokainen suorittimen ydinpari jakaa L1-käskyn ja datavälimuistin, samoin kuin L2-välimuistin. Ytimiin on kytketty välimuistien välisen verkkoyhteyden välityksellä 8 Mt L3-välimuistia ja kaksi kaksikanavaista DDR3-muistiohjainta. Piirisarja tukee jopa 128 Gt DDR-muistia, joka pystyy nopeuttamaan 1 600 MT / s.

Piirisarja integroi verkkolaitteistot ja poistaa erillisten korttien, kuten I / O-ohjaimen keskittimen, NIC: n ja pohjaosan hallintaohjaimen, tarpeen - vähentää lisäkustannuksia ja virrankulutusta.

I / O: n piirisarja tukee neljää 10 gigabitin Ethernet-yhteyttä ja kuutta PCI-E 3.0 -paikkaa sekä useita Sata 3 -portteja.

X-geenin tulevat julkaisut tuovat lisäparannuksia suorituskykyyn ja antavat kortille pohjautuville palvelimille mahdollisuuden käsitellä työtaakkoja siellä, missä sovelluksen viive on pieni. X-Gene 2 lisää RDMA: n Converged Ethernet- tai RoCE-verkkoon. RoCE on tärkeä ominaisuus hajautetuissa järjestelmissä, koska se vähentää viivettä klusterin palvelimien välillä. Tämä ominaisuus antaa yhden X-Gene-klusterin palvelinasolmun siirtää tietoja suoraan toisen solmun muistiin ja muistista yli 10 Gbps Ethernetissä, vähentäen kunkin solmun CPU: n suorittamaa työtä ja parantamalla tiedonsiirtonopeutta. Roce-tekniikan avulla X-Gene 2 on osoittanut kykenevänsä vähentämään sovelluksen viivettä noin 5 mikrosekundiin, jopa kymmenen kertaa nopeammin kuin X-Gene 1, Applied Micro -yhtiön mukaan.

X-Gene 2 tehdään 28 nm: n prosessiin, siinä voi olla jopa 16 ydintä, joiden kellotaajuus on enintään 2, 8 GHz, ja ne tukevat neljää muistikanavaa. Suorittimen ytimeen tehdään arkkitehtonisia muutoksia suorituskyvyn parantamiseksi.

Esitys

Mikä on tärkeää sellaisille työmäärille, jotka soveltuvat samanaikaisesti käsittelemiseen vähäenergisten palvelimien klusterissa - kuten web-käyttöliittymien, hakukoneiden, NoSQL-tietovarastojen, Hadoopin kaltaisten tietojen analysointityö ja mediapalvelut -, ovat tekijöitä, kellonopeus. Applied Micro uskoo, että X-Gene toimittaa näiden työtaakkojen ytimet, kuten käskyjen myöntämisleveys, prosessorin välimuistihierarkian tasojen lukumäärä, välimuistin koko CPU: ta kohti ja prosessorin muistin kaistanleveys.

Kaavio näyttää kuinka X-Gene 2 lyö verrattuna kilpailijoihin näissä mittauksissa - vasemmalta oikealle on Caviumin ThunderX Arm SoC, Intelin mikropalvelimelle suunnattu kahdeksan ytimen C2000 Atom -prosessori ja vihreänä X-Gene 2. Oikealla puolella on Intel Xeon E5-2600 v2 -prosessori, joka vaikka korkeampi suorittaminen maksaa enemmän.

SPEC2006_rate-prosessorin vertailuarvoissa X-Gene 2 tarjoaa 55 prosenttia paremman suorituskyvyn wattia kohti kuin X-Gene 1 ja 25 prosentin suorituskyvyn lisäys ApacheBench -verkkopalvelupisteissä.

Verrattuna Intel-palvelimiin, joita X-Gene kilpailee, Applied Micro väittää, että ensimmäisen sukupolven piirisarja voi tarjota Ivy Bridge- tai Haswell Xeon -suorituskyvyn, kun taas X-Gene 2 tarjoaa paremman suorituskyvyn pienemmällä teholla ja sopii latenssiin. -herkät klusteroidut sovellukset.

Applied Micro sanoo, että teline X-Gene 2 -järjestelmiä polttaa noin 30 kilowattia ja pakata 6480 lankaa, jotka toimivat 2, 8 GHz: llä. Klusteri tarjoaa 50 TB muistia ja 48 TBps muistin kaistanleveyttä. Se käsittelee 750 miljoonaa tapahtumaa sekunnissa tallennetussa testissä, ja 95 prosenttia tapahtumista tulee alle 40 millisekunnin sisällä. Intelin Xeon E5-2630 v2 -prosessoreihin pohjautuva 80 kahden pistorasian koneisto, jossa on kuusi ydintä ja kaksitoista säiettä pistorasiaa kohti, toimittaa 1 920 säiettä ja toimittaa noin 400 miljoonaa tapahtumaa sekunnissa samalla muistiin tallennetulla testillä samassa noin 30 kW. Näitä vertailuarvoja tarjoaa kuitenkin Applied Micro, joten niitä on kohdeltava asianmukaisella skeptisyydellä, kunnes ne varmennetaan.

Intelin mukaan Applied Micro -suoritusarvioita on mahdoton tarkistaa, koska "kukaan ei ole koskaan nähnyt X-Gene 1 -pohjaista järjestelmää vertailuna teollisuuden standardisovellusten avulla" ja ilmoitti, että vertailussa käytetty Xeon-asetus voidaan painottaa X-Gene: n eduksi.

Intelillä on oma energiankulutusvalikoima, vähemmän tehokkaita palvelinmarkkinoille suunnattuja SoC-laitteita, Avoton-sarja Intel Atom -perheessään, ja Intel puolestaan ​​väittää, että nämä ovat energiatehokkaampia.

"X-Gene 1 perustuu 40 nm prosessiin ja siinä on 8 ydintä ja noin 35 - 40 W TDP mikä heijastaa koneen enimmäisvirrankulutusta. Vertailun vuoksi Atom C2000: lla (Avoton) on 8 ydintä samoin kuin 20 W TDP". sanoi Intelin tiedottaja.

"X-Gene: llä odotetaan olevan 35 - 40 W TDP 8 ytimelle, solmun teho 59 W, verrattuna 8 ytimeen, 20 W Avoton ja 28-35 W solmun teho. Paras tapaus heille - sama suorituskyky kaksinkertaisella voimalla."

Siihen mennessä, kun X-Gene 2 osuu tuotantopalvelimiin, Intel on myös todennäköisesti päivittänyt palvelimien siruvalikoiman Broadwell-EP- ja Broadwell-EX Xeon -piireillä - entisestään parantaen suorituskykyä watteja kohti.

X-Gene 3 nostaa ytimien määrän enimmillään 64, nostaa kellonopeuden 3GHz: iin ja ottaa käyttöön toisen sukupolven RoCE. Se siirtää X-geenin 16 nm: n valmistusprosessiin FinFET-transistorien avulla.

Mihin voit käyttää niitä?

Applied Micro sanoo, että X-Gene-perhettä voidaan käyttää "melkein kaikkeen mitä tänään toimii datakeskuksessa".

Tähän sisältyy laajamittaisten verkkosivustojen ja -palveluiden ylläpito; verkkohakupalvelut, kuten tietojen tarjoaminen ja kerääminen; NoSQL-tietojen tallennus ja haku; data-analytiikkapalvelut, kuten tiedon luokittelu ja suodatus ja poiminta; ja median isännöinti ja suoratoisto.

X-Gene 2 sopii laajempaan pilvi- ja HPC-sovellusten valikoimaan kuin edeltäjänsä, johtuen pienestä viiveestä, palvelinten välisestä tiedonsiirrosta, jonka Roce mahdollistaa.

X-Gene -sovellus on jo demonstroitu käsittelemään HPC: n ja muiden datakeskusten työkuormitusta pariksi Nvidia Tesla GPU K20 -kiihdyttimien kanssa. X-Gene / Nvidia Tesla -kiihdytinparia käytetään Cirrascalen, E4: n ja Eurotechin palvelimissa. Jokainen palvelin on suunniteltu erikoistumaan erilaisiin työkuormiin, HPC: n Cirrascale- ja yrityskuormiin, kun taas E4 on keskittynyt seismisiin, signaalien ja kuvankäsittelyyn sekä töiden suorittamiseen isojen tietojoukkojen kanssa karttaa pienentämällä.

AMD "Seattle" Opteron 1100

Milloin se on ulkona?

Aluksesta johtuen aluksen määrästä vuoden 2014 viimeiseen neljännekseen mennessä

Tekniset tiedot

Järjestelmä sirulla, joka perustuu kahdeksan ARM Cortex A57 -suorittimen ytimeen, kellotettu taajuudella yli 2 GHz. Jokaisella prosessorisydänparilla on jako 48 kt L1-käskyä ja 32 kt L2-datavälimuistia, sekä 1 Mt L2-välimuistia - mikä tarjoaa jopa 4 Mt L2-välimuistia koko sirulle. Ytimien kesken on jaettu yhteensä 8 Mt yhtenäistä L3-välimuistia.

Tuki jopa 128 Gt DDR3- tai DDR4 ECC-muistia puskuroimattomina DIMM-, rekisteröity DIMMS- tai SODIMM-muistina.

Piirisarja käyttää ARM: n järjestelmämuistinhallintayksikköä, jonka avulla erilaiset hypervalvojat voivat pitää vieraskäyttöjärjestelmät erillisissä RAM-alustoissa.

Solariumi, joka on valmistettu 28nm prosessilla, sisältää myös tuen laajalle datalähteelle / sisäänmenolle, mukaan lukien kahdeksan kaistaisen PCI Express 3 -ohjaimen, kaksi 10 Gt / s Ethernet-liitäntää ja kahdeksan SATA 3 -porttia. Sillä on myös erillinen 1GbE-järjestelmän hallintaportti (RGMII).

Järjestelmän ohjausprosessoria, ARM Cortex A5 -pohjaista sirua, käytetään virran ohjaamiseen, järjestelmän konfigurointiin, käynnistyksen aloittamiseen ja palveluprosessoriin järjestelmän hallintatoimintoihin.

Salausprosessori toimii erityisenä kiihdyttimenä salausta ja salauksen purkua sekä pakkaamista ja purkamista koskeville algoritmeille. Kiihdytettyjä algoritmeja ovat Advanced Encryption Standard, elliptinen käyrien kryptografia, RSA, Secure Hash Algorithm, Zlib-pakkaus, Zlib-puristus ja True Hardware Random Number Generator.

AMD kehittää myös pin-yhteensopivaa versiota ARM: stä ja x86-siruista - antaa niiden kytkeä samaan pistorasiaan ja vaihtaa ne tarvittaessa.

Esitys

AMD: n kommenttien perusteella AnandTech on myös arvioinut, että kahdeksan ytimen muunnos voi saada SPECint_rate-vertailupisteessä 80 pisteen, yhteensä 10 ydintä kohti.

Virrankulutusta ei ole vahvistettu, mutta Anandtech arvioi TDP: n olevan 25 W.

Mihin voit käyttää niitä?

AMD odottaa Opteron A1100: n soveltuvan sellaisten työtaakkojen käsittelemiseen, joiden laskentavaatimukset ovat vähäiset ja joissa tiedot on nopeasti siirrettävä suorittimeen ja pois päältä.

"Tällaisissa työmäärissä prosessorit, kuten" Seattle ", joissa on pienemmät ytimet ja välimuistit, voivat tarjota vastaavan suorituskyvyn kuin perinteiset palvelinprosessorit, joissa on suuret ytimet ja välimuistit, mutta käyttävät paljon vähemmän virtaa ja aluetta", AMD kertoi Hot Chips -esityksessä. konferenssi.

Mahdollisia käyttötarkoituksia voisivat olla LAMP-pinopalvelimet, samoin kuin muisti- ja kylmävarastointipalvelimet. Facebook on jo kokeillut ARM-pohjaisen järjestelmän käyttöä OCP Open Vault -tallennusmatriisin perustana.

Sed White, AMD: n insinööri, lainasi myös Hot Chip -konferenssissa Cupertinossa sanoneen, että yritys harkitsisi prosessorin räätälöintia vastaamaan alan erityistarpeita. Intel on myös äskettäin laajentanut vaihtoehtoja suurille asiakkaille, jotka haluavat räätälöityä piitä.

Mitä muita Arm-palvelintauluja on tulossa?

Tänä vuonna on tarkoitus käynnistää useita muita ARM-pohjaisia ​​järjestelmässä on-sirulla (SoC) -prosessoreita, jotka on suunniteltu suorittamaan monenlaisia ​​tietokeskuksen tehtäviä - palvelimien työkuormien käsittelemisestä tallennusmatriisien suorittamiseen ja virtualisoitujen verkkotoimintojen käynnistämiseen.

Näiden tarpeiden täyttämiseksi ARM-pohjaiset SoC-yhdisteet ovat useiden yritysten teoksissa, mukaan lukien Broadcom, Cavium ja Texas Instruments.

© Copyright 2020 | mobilegn.com