Celle (prosessor)

The Cell er en prosessor designet av IBM , Sony og Toshiba , avslørt iFebruar 2005. Det utstyrer spesielt Sonys PlayStation 3 -spillkonsoll . Cellebaserte datamaskiner er også planlagt produsert hos IBM , Mercury Computer Systems  (en) og Toshiba (Qosmio F50 / 55 og G50 / 55).

Hans foretrukne felt, brukt på beregning av flytende punktvektorer, er:

Arkitektur

Denne prosessoren er utformet etter en arkitektonisk modell som er forskjellig fra den for generelle CISC- prosessorer som for tiden er i flertall på personlige datamaskiner.

Mindre kompleksitet for mer rå kraft

Faktisk har de siste årene tradisjonelle prosessorer utviklet enheter oppstrøms for de faktiske kjøringsenhetene for å optimalisere datakoden som utgjør programmene . Dette gjør det mye enklere for programmerere, og uoptimert kode kan fungere bra. For eksempel omorganiserer tradisjonelle prosessorer koden internt før utførelse, de kalles "  OoO  " ( ute av drift ). De instruksjoner kan utføres i en rekkefølge forskjellig fra det som gis av programmet. Etter utførelse setter prosessoren instruksjonene i riktig rekkefølge for å sikre riktig drift. Dette innebærer også en oppfølging (sporbarhet) av instruksjonene når de utvikler seg gjennom rørledningen . Alt dette arbeidet tar mye plass (av transistorer ) på prosessoren.

Til slutt har tradisjonelle prosessorer ikke endret seg fundamentalt i årevis. De nøyde seg med å bruke nye etseprosesser for å øke frekvensen. Denne epoken er over siden 90  nm , som ikke lenger tillater å øke i frekvens så mye som tidligere. Det er av denne grunn at vi er vitne til fremveksten av dual-core prosessorer  : Vi utnytter den nye finessen med gravering for å sette flere transistorer og utvikle SMP inne i prosessoren, uten mye økning i frekvensen.

IBM for Cell har valgt en original tilnærming. Cellen, som fortidens prosessorer, omorganiserer ikke koden, den sies å være "  i orden  ". Dette frigjør mye plass til å legge til nye tråder. Ulempen er at optimaliseringsarbeidet er ansvaret for programmereren og kompilatoren og derfor interoperabilitet. Å flytte en jobb utenfor prosessoren hadde allerede seiret for RISC .

En annen originalitet til cellen er at den er optimalisert for parallell databehandling  : flere prosessorer kan kommunisere med hverandre og dele arbeidsmengden. Dermed, jo flere celler prosessorer vi har, jo mer datakraft har vi tilgjengelig.

Den teoretiske maksimale ytelsen ( topp ) til Cell-prosessoren ved 3,2  GHz med 8 SPEer, oppnådd under vektorberegninger, er:

En hovedkjerne og åtte spesifikke kjerner

I stedet for å duplisere den samme identiske kjernen flere ganger, som på klassiske flerkjerneprosessorer , har designerne valgt en helt annen tilnærming: en hovedkjerne og åtte spesifikke kjerner.

Hovedkjernen, kalt PowerPC Processing Element eller PPE , forblir relativt nær en klassisk kjerne: selv om designen, som vi har sett, er forenklet, spesielt med fravær av en optimaliseringsmodul, instruksjonssett Det velkjente IBM POWER gir RAM-tilgang gjennom et to-nivå L1 og L2 cache-system. Dermed er personlig verneutstyr den mindre eksotiske delen av cellen.

Hver av de åtte spesifikke kjernene, kjent som Synergystic Processing Elements eller SPE , består av to deler: et lokalt minne ( Local Storage eller LS) på 256  kb og en vektorenhet kalt Streaming Processor Unit eller SPU. Utstyrt med et spesifikt SIMD- instruksjonssett, men lik AltiVec , har SPU-ene direkte og ekstremt rask tilgang til sitt lokale minne. På den annen side, for å få tilgang til hovedminnet, må de utføre en asynkron overføringsforespørsel til en samtrafikkbuss .

Denne samtrafikkbussen kalt Element Interconnect Bus eller Bus EIB er det siste veldig viktige elementet i cellen. Dens rolle er å etablere forbindelsen mellom PPE, SPE-ene, RAM-minnet og I / O-enhetene.

For å oppsummere og forenkle:

Kjennetegn

Den har 234 millioner transistorer etset på en overflate på 235  mm 2 i 90  nm SOI ( Silicon On Insulator ). Den endelige versjonen kjører på 3,2  GHz ved 0,9  V og består av åtte sammenkoblede kobberlag. Temperaturkontroll er dynamisk: ti digitale termiske sensorer og en lineær sensor.

En CBE- prosessor (Cell Broadband Engine) består av:

Ordet celle betyr celle på engelsk. Prosessoren er faktisk brutt ned i flere celler. En celle er et sett dannet av PPE og et SPE. Denne uavhengige maskinvareenheten kan tilordnes en tråd . Fordelingen av oppgaver i henhold til cellene er innsatsen for programmereren som ønsker å utnytte denne prosessoren best mulig.

Den PowerPC Processing Element

Kjernen (PPE) bruker PowerPC og AltiVec instruksjonssett , heltall og arbeidsfordelingen mellom SPE. Det er en 64-  bitersIn Order  " og toveis SMT- prosessor . Den har et cache integrert nivå 1 32  kb .

Det synergistiske behandlingselementet

De er beregnet for SIMD- beregninger . Et SPE er en uavhengig vektorprosessor med 128 128-biters registre, 4 enheter for beregning av flytende punkt med dobbelt presisjon og 4 enheter for heltallberegning. Den utfører to instruksjoner per klokkesyklus. Den inkluderer 256 kB lokalt høyhastighets SRAM- minne  . En celleprosessor inneholder 8 SPEer.

At av PS3 vil bare ha 7 funksjonelle enheter, inkludert en brukes til å administrere drms og sikkerhet (som gjør 6 enheter brukes av spill og programmer). De forskjellige hypotesene om dette emnet er:

The Element Interconnect Bus

Har 4 128 bit sløyfer som støtter flere overføringer. Den kobler alle CELL-komponentene sammen: PPE, SPE, L2 cache og minne- og inngangs- / utgangskontrollere.

Minne- og I / O-kontrollere

MIC er en dobbel XDR (XDRAM) minnekontroller som tilbyr en gjennomstrømning på 25,6  GB per sekund. Det er to konfigurerbare I / O-grensesnitt (76,8  Gb / s , 6,4  Gbit / s ) (Fleksibel I / O)

System

Kunngjort på 29. juni 2005, vil Linux- operativsystemkjernen støtte denne CELL-prosessoren: Kunngjøring av Linux-porten på CELL-prosessoren -29. juni 2005

Du kan se i ChangeLog , endringene som ble gjort for versjon 2.6.16 med den forrige -20. mars 2006slik at Linux kan kjøre fra denne kjerneversjonen.

Fra og med Linux- kjernen versjon 2.6.16 , kan du se og bruke dokumentasjonen for SPU-kontroll virtuelt filsystem på engelsk.

Siden 14. juli 2006, er tilgjengelig på engelsk, i SDK versjon 1.1 og delvis under Fedora core 5-distribusjon, all programvare og dokumentasjon som er nødvendig for utvikling og kompilering for CELL-prosessoren under Linux , jfr. Informasjon om hvordan du aktiverer linux på Cell Broadband Engine ™ -baserte systemer av Barcelona Supercomputing Center (BSC) .

Gratis 3D-akselerasjon for CELL-prosessoren ble lagt til i januar 2008 med en rudimentær første versjon av en driver for Gallium 3D, den fremtidige erstatningen for Mesa 3D , en gratis implementering av OpenGL . .

Høy ytelse databehandling

Tabell for prosessors sammenligning, Linpack HPC dobbel presisjonstest (sortert etter prosessor i synkende rekkefølge)
Maskin / prosessor (er) #proc #kjerne

av proc

(GFlop / s) (GFlop / s) (GFlop / s)

av proc

(GFlop / s)

av proc

IBM Cell BE (3,2  GHz ) ¹¹¹ i 2006 1 9 98.05 14,6 (64 bit)

204,8 (32 bit)

98.05 14,6 (64 bit)

204,8 (32 bit)

Itanium 2 Montecito (2 × Itanium 2 ved 1,6  GHz ) 1 2 (~ 12) ¹ 12.8 (~ 12) ¹ 12.8
IBM Cell BE (3,2  GHz ) i 2005 1 9 (10 ~ 13) ¹ 14.6 (10 ~ 13) ¹ 14.6
Pentium 4 + SSE3 (3,6  GHz ) 1 1 14.4 14.4
IBM IntelliStation POWER 285 (2 × POWER5 + ved 1,9  GHz ) 2 1 14.35 15.2 7.18 7.6
HP Integrity rx1620-2 (2 × Itanium 2 ved 1,6  GHz ) 2 1 12.05 12.8 6.03 6.4
Pentium 4 (3,2  GHz ) 1 1 6.4 6.4
HP ProLiant BL25p (2 × AMD 254 Opteron ved 2,8  GHz ) 2 1 11.2 5.6

Kilder: LINPACK referanseverdi på mange maskiner i20. juli 2006i ps - og - IBM ytelsesformat - Tabell 9 av29. november 2005

¹ estimerte verdier

¹¹¹ Algoritmen som brukes for å oppnå denne ytelsen er basert på en iterativ tilnærmingstilnærming der det brukes et par på 32 og 64 bits flytende punkt. Denne metoden beregner en 32-biters LU-faktorisering og bruker en iterativ forbedringsmetode der løsningen er valgt med 64-biters presisjon. Den oppnådde presisjonen tilsvarer en 64-bit implementering. I vårt tilfelle er Rpeak betegnet med et par 32 og 64 bits i flytende punkt.

Vær oppmerksom på at noen av prosessorene som brukes for High Performance Computing i dag, viser overlegen ytelse i 32-biters beregninger sammenlignet med beregninger direkte utført i 64-bit, som AMD Opteron , Intel Pentium , IBM PowerPC og Cray X1.

applikasjoner

Sony

Bruk av det mest kjente, videospillkonsollen PlayStation 3 fra Sony er designet rundt CELL-prosessoren.

Av hensyn til produksjonskostnader er en av de åtte SPE-ene ubrukt for å oppnå høyere produksjonseffektivitet (Sony kan bruke prosessorer med 1 eller 0 SPE-defekt). PS3 CELL-prosessoren vil dermed ha 7 SPE i motsetning til IBMs standard 8 SPE-versjon.

Kvikksølv

Mercury og IBM har samarbeidet om å utvikle løsninger basert på CELL-prosessoren.

Kvikksølv tilbyr å 1 st juli 2 006fire løsninger basert på CELL-prosessorer, pluss en evalueringsløsning ( single precision peak performance ):

IBM

IBM kunngjør en ny generasjon bladservere og den offisielle opplæringen av Blade-samfunnet som samler aktører som samarbeider om utvikling av BladeCenter-løsninger.

Denne bladserveren (brukt til nye BladeCenter H) samler 9 CELL-prosessorer, som utgjør det første tilbudet av denne typen fra IBM. Designet for databehandlingsintensiv prosessering og multimediaapplikasjoner med høy båndbreddebehov, kan det øke båndbredden til små bladservere betydelig, og dermed gi bedriftene muligheten til å sirkulere 10 ganger mer data på nettverket. Dette teknologiske gjennombruddet skyver grensene for intern ytelse for nye systemer ved å gi mer enn 40  Gbps (Gb) I / O-båndbredde per blad.

Annonsert i September 2006, Roadrunner er den første superdatamaskinen som bruker denne prosessoren (16 000 slike prosessorer). Den er bygget av IBM.

CELLs vitenskapelige og industrielle utfordringer

Hvis CELL-prosessoren opprinnelig ble designet for spillkonsoller, gjør den svært høye datakraften den veldig attraktiv på mange områder som høyytelses databehandling (HPC), bildebehandling (TI) og maskinsyn (VI). Dens kompleksitet gjør porteringsapplikasjoner veldig komplekse fordi det er nødvendig å optimalisere beregninger og overføringer. Optimalisering av overføringer betyr å optimalisere to typer overføringer: de fra eksternt minne til et SPE og de mellom SPE-er. Dette utgjør implementering av overføringsmodeller for såkalte SIMD- eller rørledningsberegninger . Optimalisering av en SPE-kode er derfor ikke mer komplisert enn å optimalisere en kode på en Altivec-prosessor. Instruksjonssettet er veldig nært og støtter både flyt- og heltallberegninger. På slutten av 2007 hadde bare to FoU-team i verden oppnådd dette, selskapet Rapidmind kjøpte i august 2009 av Intel og AXIS-teamet fra IEF (Institut d'Électronique Fondamentale) ( University Paris Sud ). Rapidmind har fordelen av å kunne distribuere kode på GPUer (NVidia og AMD-ATI 3D-kort).


En ny versjon av Cell

Sony har levert mer informasjon om den nye 65nm- revisjonen  av Cell Broadband Engine-prosessoren, som for tiden er i masseproduksjon for å erstatte den første versjonen av prosessoren inngravert på  90nm .

Cellen i 65  nm inkluderer å erstatte forgjengeren i PlayStation 3 fra Sony , den vil ha fordelen av å være 40% mindre enn versjonen 90  nm , og spesielt mindre varme. Den nåværende versjonen av 90  nm prosessor har en dyse så stor (222  mm 2 ) at dette er et reelt ytelsesproblem, fordi Sony da kan legge mindre på den samme silisiumplaten ( wafer ). Med en 40% reduksjon i CPU- dørområdet vil produksjonen kunne oppnå mye mer lønnsomme avkastninger.

Denne ytelsesforbedringen vil være minst like viktig under overgangen fra 65  nm til 45  nm , som Sony forventer i første halvdel av 2009. Alle disse prosessorene er gravert inn med SOI (Silicon On Insulator) -teknologi, brukt av IBM og AMD .

Ved å varme opp mindre vil cellen i 65  nm også kunne nå høyere frekvenser. Sony kunngjør opptil 6  GHz under en spenning på 1,3 V, hvor Cell 90  nm bare kunne nå 5,2  GHz , på grensen til kapasiteten. På en spenning på 1 V når Cell 65  nm 4  GHz uten problemer.

Denne økningen i frekvens skyldes også separasjonen av strømforsyningen til SRAM (prosessorens cache-minne) og resten av brikken. To uavhengige spenningslinjer for å forbedre prosessorens ytelse og forbruk.

Merk at IBM har til hensikt å bruke sin siste oppdagelse, eDRAM , i en neste generasjon av Cell-prosessorer.

Merknader og referanser

  1. Namco Bandai: arkaden med cellen "Arkivert kopi" (versjon av 6. august 2018 på Internett-arkivet ) ,27. mars 2007, PlayFrance "Arkivert kopi" (versjon 6. august 2018 på Internett-arkivet )
  2. Fabien, kjent som "Electronikheart", "  PlayStation 3 60 GB - Demontering og analyse - 10 år allerede!  " , På youtube.com ,22. desember 2016(åpnet 29. november 2020 )
  3. (in) la til Cell-driver-siden i endringsloggen GIT Mesa 3D
  4. (i) revolusjon opplysningene, og PS3 har godbit på Ars Technica
  5. "RapidMind + Intel" , Intel-blogg (19-08-2009)

Se også

Relaterte artikler

Eksterne linker

CELL presentasjonsfiler:

CELL dybdegående studieartikler:

Teknisk dokumentasjon for CELL-produsenter:

Teknisk programvareutviklingsdokumentasjon for CELL:

Automatisk parallellisering på cellen

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">