Pratili ste glasine i ignorirali hype; čekao si komentari i pogledao sve metričke podatke. Napokon ste pljusnuli dolare i odšetali s jednom od najnovijih grafičkih kartica AMD-a ili Nvidije. Među njima, veliki grafički procesor ispunjen milijardama tranzistora radi na taktovima koji su bili nezamislivi prije deset godina.

Stvarno ste zadovoljni kupnjom, a igre nisu izgledale i igrale se bolje. Međutim, možda se pitate što točno pokreće vaš novi Radeon. RX 5700 i koliko različiti u čipu GeForce RTX.

Dobrodošli u usporedbu arhitekture i značajki AMD-a i Nvidia-e: Navi vs Turingovi najnoviji GPU-ovi.

Moderna GPU anatomija

Prije nego što počnemo razbijati uobičajene strukture i sustave čipova, pogledajmo osnovni oblik koji slijede svi moderni GPU-ovi. Uglavnom su ovi procesori samo kalkulatori s pomičnim zarezom (FP); drugim riječima, izvode matematičke operacije na decimalnim / razlomljenim vrijednostima. Dakle, barem GPU mora imati logičku jedinicu posvećenu tim zadacima, a to su obično FP ALU (aritmetičke logičke jedinice s pomičnim zarezom) ili skraćeno FPU. Nisu svi izračuni koje GPU rade u vrijednostima FP podataka, tako da će za cijeli broj postojati i ALU (cijeli broj) može biti ista jedinica koja obrađuje matematičke operacije ili obje vrste podataka.




Sada će ove logičke jedinice trebati nešto da ih organiziraju dekodiranjem i organiziranjem da bi bile zauzete, a to će biti u obliku barem jedne posebne grupe logičkih jedinica. Za razliku od ALU-a, krajnji korisnik ih ne može programirati; umjesto toga, dobavljač hardvera pobrinut će se da ovim procesom u potpunosti upravlja GPU i njegovi pokretački programi.




Mora postojati i neka vrsta memorijske strukture za pohranu ovih uputa i podataka koje treba obraditi. Na najjednostavnijoj razini bit će u dva oblika: predmemorija i bod lokalno pamćenje. Prvi će biti ugrađen u GPU i SRAM. Ova vrsta memorije je brza, ali zauzima relativno velik dio rasporeda procesora. Lokalno pamćenje DRAMANešto je sporiji od SRAM-a i obično se ne stavlja na GPU. Lokalna memorija na većini grafičkih kartica koje danas vidimo GDDR DRAM moduli.

Napokon, uključuje dodatne zadatke postavljanja poput stvaranja 3D grafike, izrade trokuta iz uglova, rasteriziranja 3D okvira, uzorkovanja i miješanja tekstura. Kao i upute i upravljačke jedinice, i ove stalna funkcija u prirodi. Što rade i kako rade potpuno je transparentno za korisnike koji programiraju i koriste GPU.




Sastavimo ovo i napravimo GPU:




Narančasti blok je jedinica koja obrađuje teksture koristeći ono što se naziva jedinice za mapiranje tekstura (TMU'lar) - TA adresiranje teksture volumen - stvara memorijska mjesta za upotrebu predmemorije i lokalne memorije - i TF ne donose teksturu prikuplja vrijednosti teksture iz memorije i sastavlja ih. Danas su TMU-ovi približno jednaki kod svih dobavljača jer mogu obrađivati, uzorkovati i miješati višestruke vrijednosti teksture po GPU-taktu.




Donji blok zapisuje vrijednosti boja piksela u kadar, uzorkuje ih natrag (PO) i miješa (PB); ovaj blok također izvodi operacije koje se koriste kada se primjenjuje antialiasing. Ime ovog bloka: izlazna jedinica rendera or stvoriti pozadinu (ROP / RB kratko). Poput TMU-a, oni sada postaju prilično standardni, a svaki udobno obrađuje nekoliko piksela po taktu.

Međutim, naš bi osnovni GPU bio strašan čak i prema standardima prije 13 godina. Zašto?

Postoji samo jedan FPU, TMU i ROP. U 2006. godini Nvidijini grafički procesori poput GeForce 8800 GTX imali su 128, 32, odnosno 24. Počnimo raditi nešto po ovom pitanju ....




Kao i svaki dobar proizvođač procesora, ažurirali smo GPU dodavanjem još nekih jedinica. To znači da čip može istovremeno obrađivati ​​više uputa. Da bismo vam pomogli u tome, dodali smo još neke predmemorije, ali ovaj put tik do logičkih jedinica. Što je predmemorija bliža strukturi kalkulatora, brže se može inicijalizirati u dodijeljenim joj transakcijama.

Problem s našim novim dizajnom je taj što je još uvijek dostupan samo jedan kontroler za obradu naših dodatnih ALU-a. Bilo bi bolje da imamo više blokova jedinica, kojima svi upravljaju njihovi zasebni kontroleri, jer to znači da istovremeno možemo izvoditi vrlo različite operacije.

Sad je ovo više! Odvojeni ALU blokovi spakirani vlastitim TMU-ovima i ROP-ovima, potpomognuti ukusno ukusnim, brzim kriškama. To je još uvijek samo jedno od svega, ali osnovna struktura nije milion milja udaljena od grafičkog procesora koji danas vidimo na računalima i konzolama.

Navi ve Turing: Godzilla GPU'ları

Sad kad smo definirali osnovni izgled grafičkog čipa, iako malo uvećan i obrađen kako bi istaknuo razne strukture, Navi vs. Krenimo s Turingovom usporedbom.

S lijeve strane je AMD-ov najnoviji procesor. Općeniti dizajn čipa naziva se Navi (neki se nazivaju Navi 10), a grafička arhitektura RDNA. Pokraj njega, s desne strane, nalazi se Nvidijin TU102 procesor u punoj veličini s najnovijom Turingovom arhitekturom. Važno je napomenuti da ove slike nisu skalirane: površina Navi kalupa iznosi 251 mm2, dok je TU102 752 mm2. Nvidijin procesor je velik, ali ne 8 puta veći od AMD-ove ponude!

Oba kolosalni broj tranzistora (10,3 naspram 18,6 milijardi), ali TU102 ima prosječno ~ 25 milijuna tranzistora po kvadratnom mm u usporedbi s Navi-ovim 41 milijun po kvadratnom mm.

To je zato što, iako oba čipa proizvodi TSMC, oni se proizvode u različitim procesnim čvorovima: Nvidijin Turing nalazi se na zreloj proizvodnoj liniji od 12 nm, dok se AMD-ova Navi proizvodi u novijem 7 nm čvoru.

Samo gledanje slika kalupa ne govori nam puno o arhitekturama, pa pogledajmo GPU blok dijagrame koje proizvode obje tvrtke.

Dijagrami nisu stopostotni prikaz stvarnih izgleda, ali ako ih zakrenete za 90 stupnjeva, mogu se definirati različiti blokovi i središnja traka koji se pojavljuju na oba. Za početak možemo vidjeti da dva GPU-a imaju opću strukturu poput naše (iako više od bilo čega drugog!).

Oba dizajna slijede slojevit pristup načinu na koji je sve posloženo i grupirano - da bi se počeo koristiti Navi, GPU se sastoji od 2 bloka koja AMD traži. Shader motori (SE), svaki od njih naziva se 2 bloka asinkroni Računalni motori (AS). Svaka od njih sadrži 5 blokova u naslovu. Procesori radne grupe (WGP), koji se sastoji od 2 Jedinice za obradu podataka (Öze).

Imena i brojevi razlikuju se za Turingov dizajn, ali hijerarhija je vrlo slična: 6 Klasteri za obradu grafike (GPC), po 6 komada Klasteri za obradu teksture (TPC), po 2 Stream Multiprocessor (SM) blokovi.

Ako grafički procesor vidite kao veliku tvornicu u kojoj različiti odjeli proizvode različite proizvode koristeći iste sirovine, ova organizacija počinje imati smisla. Direktor tvornice šalje sve operativne detalje poduzeću, a zatim ih dijeli na različite zadatke i radna opterećenja. Imajući više od jednog, neovisna Produktivnost radne snage povećana je u tvornici. Ni za GPU-e nije drugačije, a ovdje je čarobna ključna riječ mjerenje vremena.

Prednji i srednji dio, vojnik - vrijeme i otprema

Kako gledamo Vježbe za stvaranje 3D igaraVidjeli smo da grafički procesor nije ništa drugo do super brzi kalkulator izvođenjem niza matematičkih operacija na milijunima podataka. Navi i Turing klasificirani su kako slijedi: Višestruki podaci s jednom naredbom (SIMD) procesori, ali bolje objašnjenje Single Way Multi Nit (Osjećaj).

Moderna 3D igra stvara stotine niti, ponekad i tisuće, jer je broj vrhova i piksela koji se generiraju ogroman. Da biste osigurali da se sve izvede u samo nekoliko mikrosekundi, važno je imati što više logičkih jedinica bez zaustavljanja svega jer potrebni podaci nisu na pravom mjestu ili nema dovoljno prostora za rad unutar.

Kad smo pogledali kako funkcionira stvaranje 3D igara, vidjeli smo da grafički procesor nije ništa drugo do stvarno brzi kalkulator i izvršili smo razne matematičke operacije na milijunima podataka. Navi i Turing klasificirani su kao procesori s jednim zapovjednim višestrukim podacima (SIMD), ali bolje objašnjenje bi bilo više naredbi s više naredbi (SIMT).

Navi i Turing rade slično pa središnja jedinica uzima sve niti, a zatim ih započinje programirati i emitirati. U AMD čipu, ova uloga Procesor grafičkih naredbi; Nvidia'da, GigaThread Motoru. Niti su poredane tako da se one s istim uputama grupiraju u zbirku od 32 skupine.

AMD ovu kolekciju valdok Nvidia ovo zakrivljenost. Za Navi računarska jedinica može podnijeti 2 vala (ili val od 64 niti, ali ovaj postupak traje dvostruko duže), a u Turingu Stream Multiprocesor radi s 4 osnove. U oba dizajna, val / osnova je neovisan, što znači da ga ostali ne trebaju završiti prije početka.

Dotad se ne razlikuje puno između Navi i Turinga - obje su dizajnirane za obradu velikog broja niti za stvaranje i izračunavanje radnih opterećenja. Moramo pogledati koji su procesori ove niti da bismo vidjeli gdje se dva GPU diva odvajaju u dizajnu.

Izvršna razlika - RDNA i CUDA

Iako se čini da je većina korištene terminologije ista, AMD i Nvidia imaju prilično drugačiji pristup kombiniranim jedinicama sjenčanja. Nvidijine izvršne jedinice (ČUDA sjeme) digitalni u prirodi - to znači da jedinica izvodi matematičku operaciju nad komponentom podataka; Za razliku od AMD jedinica (Stream procesori) raditi na vektori - operacija na više komponenata podataka. Postoji samo jedna specifična jedinica za skalarne operacije.

Prije nego što bliže pogledamo izvršne jedinice, ispitajmo AMD-ove vlastite preinake. Tijekom 7 godina Radeon grafičke kartice slijedile su arhitekturu nazvanu Graphics Core Next (GCN). Svaki novi čip revidirao je različite aspekte dizajna, ali svi su u osnovi bili isti.

AMD je predstavio kratku povijest arhitekture GPU-a:

GCN je evolucija TeraScale, dizajna koji omogućuje istovremeno obrađivanje velikih valova. Glavna stvar s TeraScaleom bila je da protiv programera nije bilo lako i trebale su vrlo specifične rutine da bi se postiglo najbolje. GCN je to popravio i pružio puno pristupačniju platformu.

CU-ovi u Navi-u značajno su revidirani s GCN-a kao dio AMD-ovog procesa poboljšanja. Svaka CU sadrži dva seta:

  • 32 SP (IEE754 FP32 i INT32 vektorske ALU-ove)
  • 1 SFU
  • 1 INT32 vaga ALU
  • 1 jedinica vremena i isporuke

Osim njih, svaka CU sadrži 4 jedinice tkiva. Postoje i druge jedinice za izvršavanje operacija čitanja / pisanja podataka iz predmemorije, ali nisu prikazane na donjoj slici:

U usporedbi s GCN-om, postavljanje RDNA CU-a možda neće izgledati jako drugačije, ali sve što je ovdje važno organizirano je i organizirano na ovaj način. Za početak, svaki set od 32 SP ima svoju namjensku jedinicu s uputama, GCN je imao samo jedan program za 4 seta od 16 SP.

Ovo je važna promjena, što znači da se svaki val od 32 niti po taktu može isporučiti u svaki SP set. RDNA arhitektura također omogućava vektorskim jedinicama da obrađuju valove od 16 niti dvostrukom brzinom i valove od 64 niti upola, pa je kôd napisan za sve prethodne Radeon grafičke kartice i dalje podržan.

Te će promjene biti vrlo popularne za programere igara.

Za skalarne operacije sada postoje dvije jedinice koje se mogu nositi s njima; jedino smanjenje broja komponenata je u obliku SFU-a - to su posebna funkcija jediniceizvodi vrlo specifične matematičke operacije, npr. trigonometrijski (sinus, tangenta), uzajamni (1 podijeljen brojem) i kvadratni korijeni. RDNA ih ima manje od GCN-ova, ali sada mogu raditi na dvostruko većim skupovima podataka nego prije.

Te će promjene biti vrlo popularne za programere igara. Bilo je puno potencijalnih performansi na starijim Radeon grafičkim karticama, ali to je bilo vrlo teško učiniti. Sada je AMD poduzeo velik korak prema smanjenju latencije u uputama za obradu i zadržavanju značajki kako bi osigurao povratnu kompatibilnost za sve programe dizajnirane za GCN arhitekturu.

Što je s profesionalnom grafikom ili računalnim tržištem? Jesu li ove promjene korisne i za njih?

Kratki odgovor je da (vjerojatno). Trenutna verzija Navi čipa koja se nalazi na sličnom Radeon RX 5700 XT ima manje Stream procesora od prethodnog Vega dizajna, dok bolje smo nastupili prethodna generacija Radeon RX Vega 56 prilično je jednostavna:

Dio ovog poboljšanja performansi proizići će iz veće brzine takta RX 5700 XT od RX Vege 56 (tako da u lokalnu memoriju može upisati više piksela u sekundi), ali pada za čak 15% pri najvišim performansama cijelog broja i pokretne točke; Ipak, otkrili smo da je Navi čip imao 18% bolju izvedbu od Vege.

Znanstvenici koji vode programe profesionalnog prikazivanja i složene algoritme u svom radu ne pucaju s nekoliko krugova Battlefielda V (tj. može biti...) samo ako se brže obrađuju skalarne, vektorske i matrične operacije izvedene u igraćem stroju brod pretvoriti ga u računarstvo. Trenutno ne znamo koji su AMD-ovi planovi za profesionalno tržište - mogu se dobro slagati s Veginom arhitekturom i pomoći u poboljšanju dizajna, proizvodnje, ali s obzirom na napredak u Navi, tvrtka sve premješta na novu arhitekturu.

Nvidijin GPU dizajn doživio je sličnu evoluciju od 2006. godine, kada su lansirali seriju GeForce 8, iako manje radikalne promjene od AMD-a. Ovaj GPU stvorio je prvu Teslinu arhitekturu koja je koristila prvi shader pristup u izvedbenoj arhitekturi. Ispod možemo vidjeti promjene u SM blokovima od nasljednika Tesle (Fermi) do Turingova prethodnika (Volta):

Kao što je ranije spomenuto u ovom članku, CUDA jezgre digitalni. Oni mogu izvršiti jednu float i jednu cjelobrojnu naredbu po ciklusu takta na podatkovnoj komponenti (međutim, imajte na umu da sama naredba može potrajati više ciklusa takta da bi se obradila), ali ih vremenske jedinice raspoređuju u skupine, mogu izvršavati vektorske operacije programeru. Najznačajnija promjena tijekom godina uključuje ne samo više jedinica, već i način na koji su organizirane i segmentirane.

U Keplerovom dizajnu, puni čip imao je 5 GPC-a, svaki sadrži tri SM bloka; Kad se pojavio Pascal, GPC-ovi su podijeljeni u zasebne particije (TPC) s dva SM-a po TPC-u. Kao i kod dizajna Navi. ova je fragmentacija važna jer omogućuje što općenitiju upotrebu općeg GPU-a; Više neovisnih skupova instrukcija može se paralelno obrađivati, povećavajući sjenčanje i računalne performanse procesora.

Pogledajmo Turingov ekvivalent RDNA računskoj jedinici:

SM sadrži 4 bloka transakcija, od kojih svaki sadrži:

  • 1 jedinica za raspored i otpremu uputa
  • 16 IEE754 FP32 vaga ALU
  • 16 INT32 vaga ALU
  • 2 boje tenzora
  • 4 SFU
  • 4 Učitavanje / pohrana (izvođenje operacija čitanja / pisanja iz predmemorije)

Postoje i 2 FP64 jedinice po SM-u, ali Nvidia ih više ne prikazuje u blok dijagramima, a svaka SM ima 4 jedinice teksture (uključuje sisteme za adresiranje teksture i filtriranje teksture) i 1 RT (Ray Tracing) jezgru.

FP32 i INT32 ALU-ovi mogu raditi istovremeno i paralelno. Ovo je važna značajka jer strojevi za 3D prikazivanje često zahtijevaju izračune s pomičnim zarezom, ali treba obaviti razuman broj jednostavnih cjelobrojnih operacija (npr. Izračun adrese podataka).

Tenzorske jezgre su posebne ALU-e koje izvode matrične operacije. Matrice su 'kvadratni' nizovi podataka, a jezgre tenzora rade na matrici 4 x 4. FP16 je dizajniran za obradu komponenata podataka INT8 ili INT4 tako da se plutajući operativni sustav dogodi na 64 FMA (stopljeno množenje-dodavanje) u jednom taktu. Ova vrsta izračuna se naziva neuronske mreže i zaključivanje - nije baš uobičajeno u 3D igrama, ali ga Facebook voli u automobilima s algoritmima analize društvenih mreža ili sustavima za samovozu. Navi također može raditi matrične izračune, ali za to je potreban velik broj SP-a; U Turingovom sustavu mogu se izvoditi matrične operacije dok CUDA jezgre rade drugu matematiku.

RT Core je još jedna posebna jedinica jedinstvena za Turingovu arhitekturu koja izvodi vrlo specifične matematičke algoritme koji se koriste za Nvidijin sustav za traženje zraka. Kompletna analiza ovoga izvan je dosega ovog članka, ali RT Core su dva sustava koja rade odvojeno od ostatka SM-a, pa dok je RT Core zauzet izvršavanjem izračuna, može raditi na vršnim ili pikselskim shaderima. za traženje zraka.

Na osnovnoj razini, Navi i Turing imaju izvršne jedinice koje nude prilično sličan skup značajki (zahtjev koji proizlazi iz poštivanja zahtjeva Direct3D, OpenGL, itd.).

Na osnovnoj razini, Navi i Turing imaju izvršne jedinice koje nude prilično sličan skup značajki (zahtjev koji proizlazi iz udovoljavanja zahtjevima Direct3D, OpenGL, itd.), Ali imaju vrlo drugačiji pristup načinu na koji su te značajke. gotov. Kad je riječ o tome koji je dizajn bolji, dolazi se do načina na koji se oni koriste: FP32 program koji proizvodi vektorske izračune i velik broj niti koje malo izvode preferirao bi Navi, dok će program s različitim cijelim brojevima, pokretnim zarezom, skalarom i vektorskim proračunima dati Turingovu fleksibilnost. preferira itd.

Hijerarhija sjećanja

Suvremeni GPU-ovi dizajnirani su za izvođenje niza operacija na stream procesorima, odnosno na svakom elementu u podatkovnom toku. To ih čini manje fleksibilnima od CPU-a opće namjene, a također zahtijeva optimizaciju memorijske hijerarhije čipa za primanje podataka i uputa na ALU-ove što je brže moguće i u što većem broju tokova. To znači da će GPU-ovi imati manje predmemorije od CPU-a, jer većina čipa mora biti posvećena količini predmemorije, a ne pristupu predmemoriji.

I AMD i Nvidia pribjegavaju korištenju više predmemorija unutar čipova, pa pogledajmo što Navi prvo pakira.

Polazeći od najniže razine hijerarhije, dva bloka procesora protoka koriste ukupno vektorski registar opće namjene od 256 kilograma (obično datoteka dnevnika) Je li bio isti iznos kao Vega, ali između 4 bloka SP; Ponestajanje registara tijekom pokušaja obrade velikog broja niti stvarno šteti performansama, tako da je ovo definitivno "dobra stvar". AMD je također uvelike povećao skalarnu datoteku za snimanje. Kad je prije bilo samo 4 kiB, sada je to 32 kilograma po skalarnoj jedinici.

Dvije računske jedinice tada dijele 32-kilogramsku L0 predmemoriju i 16-kilogramsku skalarnu predmemoriju podataka, ali svaka CU prima vlastitu vektorsku L0-predmemoriju od 32 kilograma; Povezivanje sve ove memorije s ALU-ovima je dijeljenje lokalnih podataka od 128 kilograma.

U Navi, dva računalna stroja stvaraju procesor radne skupine, a njih pet čini Asinkroni računski stroj (ACE). Svaki ACE ima pristup vlastitoj L1 predmemoriji od 128 kilograma, a cjelokupni GPU je dodatno podržan od 4 MiB L2 predmemorije koje se povezuju s L1 predmemorijama i ostalim dijelovima procesora.

Kako se sustav strogo koristi za rukovanje 16 memorijskih kontrolera GDDR6, to je oblik AMD-ove vlasničke arhitekture povezivanja Infinity Fabric. Da bi povećala propusnost memorije, Navi također koristi kompresiju boja bez gubitaka između L1, L2 i izvorne GDDR6 memorije.

Opet, sve je ovo posebno dobrodošlo u usporedbi s prethodnim AMD-ovim čipovima koji nisu imali dovoljno predmemorije niske razine za broj jedinica sjenčanja koje sadrže. Ukratko, više predmemorije jednako je većoj internoj propusnosti, manje tromim uputama (jer moraju dohvatiti više podataka iz memorije) itd. A to je jednako boljim performansama.

Što se tiče Turingove hijerarhije, mora se reći da je Nvidia na sramežljivoj strani kada je u pitanju pružanje detaljnog znanja u ovom području. Ranije u ovom članku vidjeli smo kako se svaki SM dijeli na 4 bloka transakcija - svaki ima manju datoteku dnevnika od 64 kilograma od one koja se nalazi u Navi, ali imajte na umu da su Turingovi ALU-ovi skalari, a ne vektori. , jedinice.

Dalje, 96 kb dijeljene memorije za svaki VM može se koristiti kao 64 kb predmemorije podataka L1 i 32 kb predmemorije tkiva ili dodatni prostor za zapis. U 'načinu izračuna' zajednička memorija može se podijeliti na različite particije, poput 32 kb zajedničke memorije i 64 kiB L1 predmemorije, ali uvijek u obliku 64 + 32 podjele.

Nedostatak detalja o memorijskom sustavu Turning natjerao nas je da želimo još, pa smo se obratili istraživačkom timu za GPU koji radi u Citadel Enterprise Americas. Nedavno su objavili dva članka. Vrijeme ve Turinga arhitekture; Gornja slika je fragmentacija hijerarhije memorije u TU104 čipu (puna TU102 sport 6144 kiB L2 predmemorija).

Tim je potvrdio da je protok L1 predmemorije 64 bita po ciklusu i izjavio da je testiranje učinkovitosti Turingove L1 predmemorije bilo najbolje od svih Nvidijinih GPU-a. To je ravnopravno Navi, iako AMD-ov čip ima veću brzinu čitanja za Local Data Store, ali nižu stopu za upute / fiksne predmemorije.

Oba GPU-a koriste GDDR6 za lokalnu memoriju - ovo je najnovija verzija Graphics DDR SDRAM-a - i oba koriste 32-bitne veze s memorijskim modulima, pa Radeon RX 5700 XT Ima 256 memorijskih čipova i pruža maksimalnu propusnost od 256 GiB / s i 8 GiB prostora. jedan GeForce RTX 2080 Ti S čipom TU102 radi s 11 takvih modula za propusnost 352 GiB / s i 11 GiB prostora za pohranu.

AMD-ova dokumentacija ponekad se može činiti zbunjujućom: U prvom blok dijagramu vidimo kako Navi prikazuje četiri 64-bitna memorijska kontrolera, dok kasnija slika prikazuje 16 kontrolera. S obzirom Samsung nudi samo 32-bitni GDDR6 Čini se da druga slika pokazuje koliko je veza između sustava Infinity Fabric i memorijskih kontrolera. Vjerojatno postoje samo 4 memorijska kontrolera i svaki koristi dva modula.

Sve u svemu, čini se da nema velike razlike između Navi i Turinga što se tiče njihove predmemorije i lokalne memorije. Još je malo Navi da se približi izvršnoj strani stvari s većim predmemorijama uputa / konstanta i L1, ali obje su krcate, obje koriste kompresiju boja gdje je to moguće, a obje imaju puno prilagođenih GPU uzoraka u pristupu memoriji i koristi se za maksimiziranje propusnosti.

Trokuti, teksture i pikseli

Prije petnaest godina, proizvođači GPU-a učinili su puno o tome koliko trokuta njihovi čipovi mogu podnijeti, broju teksturnih elemenata koji se mogu filtrirati po ciklusu i mogućnosti generiranja izlaznih jedinica (ROP). Ti su aspekti i danas važni, ali fokus je puno više na strani izvršenja jer tehnologije 3D prikazivanja zahtijevaju više računalnih performansi nego ikad prije.

Međutim, samo da bismo istaknuli da na ovim područjima nema odmah uočljive razlike između Navi i Turinga, teksturne jedinice i ROP-ove još uvijek vrijedi istražiti. U obje arhitekture, teksturne jedinice mogu rukovati i dohvatiti 4 elementa teksture, filtrirati ih nepoznate u jednom elementu i sve ih pohraniti u jedan ciklus takta (zanemarujući dodatne petlje sata preuzete za dohvaćanje podataka iz lokalne memorije).

Raspored ROP / RB-ova malo se razlikuje između Navi i Turinga, ali ne previše: AMD čip ima 4 RB-a po ACE-u i svaki može iznijeti 4 pomiješana piksela po taktu; U Turingu svaki GPC ima dva RB-a, svaki daje 8 piksela na sat. Broj ROP-a GPU-a zaista je mjera izlazne brzine ovog piksela, tako da puni Navi čip daje 64 piksela na sat i puni TU102 96 (ali imajte na umu da je ovo veći čip).

Na trokutnoj strani stvari ima manje podataka. Ono što znamo jest da Navi i dalje daje najviše 4 primitiva po taktu (1 po ACE), ali više nema podataka o tome je li AMD riješio problem s tim problemom. Primitivni sjenčići. To je bila vrlo hvaljena značajka Vege i omogućila programerima da imaju puno veću kontrolu nad primitivima, tako da se primitivni prinos može povećati za 4 faktora. funkcionalnost uklonjena iz upravljačkih programa Proizvod je uspavan nedugo nakon lansiranja i od tada.

Iako još uvijek čekamo dodatne informacije o Navi, bilo bi nerazborito dalje nagađati. Turing također obrađuje 1 primitiv na sat po GPC-u (tj. Do 6 za puni TU102 GPU) u rasterskim motorima, ali također Mrežasti sjenčićiNudi istu funkcionalnost kao i AMD-ovi Primitive Shaderi; Direct3D nije skup značajki OpenGL ili Vulkan, ali se može koristiti putem API proširenja.

Čini se da ovo daje Turingu prednost u odnosu na Navi u pogledu rukovanja trokutima i primitivima, ali trenutno u javnosti nema dovoljno preciznih podataka.

Nije sve o izvršnim jedinicama

Postoje i drugi aspekti Navi i Turinga koje vrijedi usporediti. Za početak, oba GPU-a imaju vrlo napredne mehanizme za prikaz i medije. Prva obrađuje izlaz na monitor, druga kodira i dekodira video tokove.

Kao što biste očekivali od novog GPU dizajna 2019., Navijev zaslon nudi vrlo visoke rezolucije pri visokim brzinama osvježavanja i nudi HDR podršku. Pogledajte kompresiju protoka (DSC) je algoritam brze kompresije s gubitkom koji omogućuje prijenos sličnosti od 4K + pri brzini osvježavanja većoj od 60 Hz putem DisplayPort 1.4 veze; Srećom, pogoršanje kvalitete slike vrlo je malo do te mjere da DSC smatrate gotovo bez gubitaka.

Turing također podržava DisplayPort s DSC vezama, ali podržana kombinacija visoke razlučivosti i brzine osvježavanja nešto je bolja od Navi: 4K HDR na 144 Hz - ostalo je isto.

Navi-ov medijski mehanizam jednako je moderan kao i mehanizam zaslona Napredno kodiranje video zapisa (H.264) i Kodiranje video zapisa visoke učinkovitosti (H.265), opet pri visokim rezolucijama i visokim brzinama prijenosa.

Turingov video mehanizam približno je isti kao Navi, ali podrška za kodiranje 8K30 HDR može nekim ljudima preokrenuti ravnotežu u Turingovu korist.

Postoje i drugi aspekti za usporedbu (na primjer, Navi's PCI Express 4.0 sučelje ili Turingov NV Link), ali bez obzira na to kako se odjenuli i prodali, oni su stvarno sićušni dijelovi ukupne arhitekture. To je zato što za veliku većinu potencijalnih korisnika ove jedinstvene značajke neće biti važne.

Usporedba Like-for-Like

Ovaj je članak promatranje arhitektonskog dizajna, značajki i funkcionalnosti, ali izravna usporedba performansi bio bi dobar način za dovršetak takve analize. Međutim, uparivanje Navi čipa na Radeon RX 5700 XT u GeForce RTX 2080 Ti s Turing TU102 procesorom u GeForce RTX 2080 Ti ne bi bilo izrazito pošteno s obzirom da je potonji gotovo dvostruko veći broj kombiniranih shader jedinica. Međutim, postoji verzija Turingova čipa koja se može koristiti za usporedbu, a to je ona koja se nalazi u GeForce RTX 2070 Super.

  Radeon RX 5700 XT GeForce RTX 2070 Super
GPU | Arhitektonski Navi 10 | rDNA TU104 | Turinga
postupak 7 nm TSMC 12 nm TSMC
Površina kalupa (mm2) 251 545
Tranzistori (milijarde) 10.3 13.6
Blokiraj profil 2 JI | 4 ACE | 40 PB 5 GPC | 20 TPC | 40 SM
Kombinirane jezgre sjenčanja 2560 SP 2560 ČUDA
TMU 160 160
ROPS 64 64
Osnovno vrijeme 1605 MHz 1605 MHz
Igraći sat 1755 MHz N / A
Pojačani sat 1905 MHz 1770 MHz
Memorija 8 GB 256-bitni GDDR6 8 GB 256-bitni GDDR6
Propusnost memorije 448 GBps 448 GBps
Termička dizajnerska snaga (TDP) 225 vati 215 W.

Vrijedno je napomenuti da RTX 2070 Super nije 'puni' TU104 čip (jedan od GPC-ova je onemogućen), pa su svi ovi 13,6 tranzistori neaktivni, što znači da su čipovi približno jednaki u smislu broja tranzistora. U nominalnoj vrijednosti, dva GPU-a izgledaju vrlo slično, pogotovo ako uzmete u obzir samo jedinice sjenčanja, TMU-ove, ROP-ove i glavne memorijske sustave.

U procesoru Nvida, SM može obraditi 32 simultana warpa, a sa svakim warpom od 32 niti, potpuno učitani GeForce RTX 2070 Super može raditi na 40.960 niti kroz cijeli čip; Za Navi, jedan CU SIMD32 može primiti 16 valova po ALU, a svaki val ima 32 niti. Dakle, Radeon RX 5700 XT također može biti upakiran do 40.960 niti. Možda se čini da ih ovo čini upravo ovdje, ali s obzirom na to koliko su različito raspoređeni CU / SM i Nvidijina prednost uz istodobnu INT i FP obradu, rezultat će u velikoj mjeri ovisiti o pokrenutom kodu.

Kakav će učinak to imati na razne izvedbe igara, jer će kôd 3D mehanizma favorizirati jednu izgradnju nad drugom, ovisno o tome kakve se upute rutinski šalju GPU-u. Ovaj, testirao dvije grafičke kartice:

Sve igre korištene u testu programirane su za AMD-ovu GCN arhitekturu izravno za Radeon-opremljena računala ili putem GCN GPU-a koji se nalaze na PlayStationu 4 ili Xbox One. Moguće je da su neki od nedavno pokrenutih pripremljeni za promjene RDNA-e, ali razlike u rezultatima mjerenja vjerojatnije su zbog mehanizama za prikazivanje i načina obrade uputa i podataka.

Pa što sve ovo znači? Je li jedna arhitektura zaista bolja od druge? Turing zasigurno nudi veći kapacitet od Navi zahvaljujući Tensor i RT Cores, ali potonji se definitivno natječe u smislu izvedbe 3D prikazivanja. Razlike uočene u 12 primjera igre nisu dovoljno precizne da donesu konačan sud.

I ovo je dobra vijest za nas.

Završne riječi

AMD-ovi Navi planovi je najavljeno Oni su ciljali na lansiranje 2018. u 2016. i premda nisu puno rekli. Kad taj datum dođe i prođe karta puta promijenio međutim, bilo je jasno da će Navi biti izgrađen u 7nm procesnom čvoru, a dizajn će se usredotočiti na poboljšanje performansi.

To je definitivno bio slučaj, a kao što smo vidjeli u ovom članku, AMD je napravio arhitektonske promjene kako bi Nvidiji omogućio da se nadmeće sa svojim ekvivalentnim ponudama. Novi dizajn koristi više od samo korisnika računala, jer znamo da će Sony i Microsoft koristiti inačicu čipa u nadolazećem razdoblju. Playstation 5 ve sonraki xbox.

Ako se vratite na početak ovog članka i ponovno pogledate strukturni dizajn Shader Motors-a, ukupnu veličinu matrice i broj tranzistora, očito postoji prostor za vrhunac "velikog Navi" čipa. najnovija grafička kartica; AMD je prilično potvrdio da bi to trebalo biti dio njezinih trenutnih planova i težiti poboljšanju arhitekture i proizvodnog procesa tijekom sljedeće dvije godine.

No, kakvi su planovi za Nvidiju, Turinga i njegovog nasljednika? Iznenađujuće, tvrtka je malo potvrdila. 2014. godine Nvidia Ažurirana karta GPU-a Planiranje arhitekture Pascal za lansiranje 2016. (i postizanje tog cilja). 2017. godine Tesla je najavio V100Upravo je ovaj dizajn predstavio Turinga 2018. godine, koristeći Volta arhitekturu.

Od tada su stvari bile prilično tihe i morali smo se osloniti na glasine i isječke vijesti, koji često govore isto: Sljedeća Nvidijina arhitektura zvat će se Ampere, Napravio Samsung Koristi 7nm procesni čvor i planiran je za 2020. godinu. Osim toga, nema se što drugo nastaviti. Novi čip vjerojatno neće narušiti tradiciju usredotočujući se na skalarne izvršne jedinice ili je vjerojatno da će odustati od aspekata kao što su Tensor Cores jer će to dovesti do značajnih problema s povratnom kompatibilnošću.

Ipak, možemo napraviti neka razumna predviđanja o tome kako će izgledati sljedeći Nvidia GPU. Tvrtka je uložila značajnu količinu vremena i novca. Traganje zrakai njegova podrška samo u igrama povećati; Stoga možemo očekivati ​​poboljšanje u RT jezgri u smislu mogućnosti ili broja po SM-u. Ako jedan 7 nm procesni čvor Ako je to točno, Nvidia će vjerojatno težiti smanjenju napajanja, a ne izravnom povećanju takta, tako da mogu povećati broj GPC-ova. Također je moguće preskočiti 7 nm i pokrenuti Nvidiju. Ravno za 5 nm Da biste stekli prednost nad AMD-om.

Očito AMD i Nvidia, diskretna grafička kartica Tržište od Intela kakvog znamo planiraju ponovno ući u ovu industriju, Nazovite 20 godina. Ovaj novi proizvod (trenutno Xe's) Moći će se natjecati na istoj razini kao Navi i Turing.

U međuvremenu, Intel je preživio tržište GPU-a za ova dva desetljeća izrađujući integriranu grafiku za svoje CPU-ove. Intelov najnoviji GPU Post 11Slična je AMD-ovoj arhitekturi jer koristi vektorske ALU-ove koji mogu obrađivati ​​FP32 i INT32 podatke, ali ne znamo hoće li nove grafičke kartice biti izravan razvoj ovog dizajna.

Ono što je sigurno jest da će sljedećih nekoliko godina biti vrlo zanimljivo jer se tri diva silicijskih struktura nastavljaju boriti za naše novčanike. Novi GPU dizajni i arhitekture izazvat će brojeve tranzistora, veličine predmemorije i svojstva sjenčanja; Navi i RDNA najnoviji su od njih i pokazali su da svaki korak naprijed može napraviti malu razliku.

Prečaci za kupovinu:
  • GeForce RTX 2070 Super bistro Amazon
  • GeForce RTX 2080 Super bistro Amazon
  • Otvorena GeForce RTX 2080 Ti Amazon
  • Uključen Radeon RX 5700 XT Amazon
  • Otvoren Radeon RX 5700 Amazon
  • GeForce RTX 2060 Super bistro Amazon
  • GeForce GTX 1660 Super bistro Amazon

Ovaj je članak izvorno objavljen 7. kolovoza 2019. Kao dio naše inicijative #ThrowbackThursday, malo smo revidirali i srušili se.