AMD RX 480 e RX460, speciale tecnico su Polaris 14nm

il cuore di Polaris




IMG0051097

Dopo che Nvidia ha lanciato la fascia alta GP104, AMD risponde con una scheda di fascia mainstream che prende il posto della Tonga 380/x.

Si tratta di una scheda non dalle alte pretese ma capace di tenere testa alla GTX 1060, ed anche batterla quando le innumerevoli ALU vengono sfruttate tramite Vulkan e gli ACE hardware.

Prima di parlare della RX 480, analizziamo Tonga, chip che introdusse per primo la compressione e decompressione ROP, capace di migliorare l’efficienza delle ROP e sgravare la banda passante migliorando le latenze. Questa Tecnica è stata introdotta solo con Maxwell 2,0 di Nvidia.

RX 285/380/380x nel dettaglio

tonga_384

Tonga nelle sue varianti è composta da un chip  da 352mm^2 e ben 4,3 miliardi di transistor su un processo produttivo a 28 nanometri..

IMG0045431

Al suo interno troviamo ben 32 CU (compute engine), ma solo 28 sono attivi nella R9 285 ed R9 380. Ogni CU è composto da quattro unità vettoriali e ben 16 ALU, per un totale di 1792/2048 shader core, a seconda del modello, comandate da uno scheduler integrato che fa in modo di programmarle senza dipendenze, fattore in parte limitante delle Simd Vliw. Sempre all’interno troviamo i load store e ben 4 TMU.

Il bus è stato limitato a 4 canali da 64bit, 256bit in totale, 32 ROP per calcoli MSAA e ben 768kb di cache l2. La vera rivoluzione sta nel rapporto ROP/banda, in cui AMD prevede di raggiungere sino ad un massimo del 40% di compressione, fattore che permette di simulare una banda teorica ben più elevata, ma rende ben più efficienti le ROP. ROP più efficienti, tra cache-banda permette di avere un frame in uscita più stabile, con minimi ottimali e medi senza grosse cadute.

Da questo chip, possiamo notare i 4 rasterizzer che processano 4 triangoli e gli 8 ACE, motori asincroni con otto code a testa, per un totale di 64, che svolgono lavori simultanei, utilissimi in DX12 e per non cercare di evitare il classico shader in idle.

 

RX 480 cosa cambia?

IMG0051109

Con la RX 480 AMD immette sul mercato la prima soluzione basata sui 14 nanometri Samsung / GLOBALFOUNDRIES

IMG0051117

IMG0051110

La scheda mantiene tutte le caratteristiche elaborative di Tonga ma le CU sono state portate a ben 36 (2304 shader), le TMU passano a 144. Rimane inalterato il rapporto tra ROP e banda, con 32 ROP su un bus di 256bit ma ben più veloce. Le memorie che equipaggia la RX480 sono le potenti ed a bassi timing, samsung K4G80325FB-HC25 8gbps, capaci di 256gb/s di banda passante.

memory_small

Ogni rasterizzer è composto da 9 CU, separato da un ponte per gli export sulle ROP, ogni raster accede a 8 ROP. Sulla cache sono stati utilizzati molti transistor, il tutto per cercare di rendere migliore la parallelizzazione del flusso dati, ora la cache l2 passa da 768KB a 2MB.

Anche Nvidia ha lavorato molto sul rapporto cache, questa ha bisogno di più cicli di accesso ma può contenere molti più dati da caricare all’istante, per fornire sempre più maggiormente gli shader, vista la potenza teorica di ben 5,9 tera flops. Una potenza matematica e teorica in ALU, capace di eguagliare la GTX 1070 di NVIDIA.

Non manca il supporto  all’asyncronous compute, che come vedremo nelle prossime review, farà fare il salto con Vulkan (Open GL) e motori DX12. Inoltre possiamo notare sul crossbar ben 2 motori  HWS, capaci di predisporre il lavoro, limitando l’overhead.

La scheda è predisposta per 4 ed 8gb di ram su un bus a 256bit, con un MSRP rispettivamente di 199/229$.

 

Dentro il Compute Engine

polaris-cu-0faffe421ed97c3558bcfd64c68cb35c7

All’interno del compute engine, troviamo lo scheduler che comanda le ALU. Come detto in precedenza, le quattro unità vettoriali, contengono 16 ALU a testa e 256kb di cache per vettore. Internamente possiamo notare i 16 load store, i 16kb di cache l1 e le ben 4 texture unit (TMU), posizionate nello stesso rapporto già visto con Nvidia, ovvero 4 ogni 64 shader o cuda cores.

Schema completo del chip Polaris

Polaris-P10-Die-Shot-pcgh

Lo schema è essenzialmente per utenti particolarmente esperti ed attenti, ma possiamo vedere subito, che il chip è del tutto completo, nessun rebrand con più CU, come avvenne per Tonga.

Possiamo vedere dal grafico 36 CU, 4 a rasterizzatore, e le relative TMU affiancate dalla cache l1, disposta sotto le CU e la corposa cache l2 da ben 2mb con 8 partizioni da 256kb..

Memory Compression

IMG0051113

Notevoli le migliorie anche sul fronte memoria. Il 40% sbandierato sia da AMD che Nvidia, non produceva i risultati sperati, tanto che spesso si arrivava a soglie del 17-20-25% massimi. Ora sia Polaris che Pascal sono in grado di decomprimere qualsiasi formato, ed in qualsiasi valore, in scala 8:1 / 4:1 / 2:1. Il valore di 2:1 non veniva compresso, saturando porzioni di banda sequenziali, ora con la nuova modalità si riesce a decomprimere qualsiasi formato, raggiungendo il vero valore teorico impostato sia da Nvidia che da AMD.

La Hawaii 290, pur vantando ben 320gb/s non riusciva ad accedere ad oltre 263gb/s, fattore che la rende più sbilanciata rispetto al Polaris, considerando che tale schede ha il doppio delle ROP senza compressione.

Primitive discard

IMG0051129

AMD come sottolineato ha una potenza sulle ALU ben sopra alla rivale Nvidia, ma non integra polymorph engine ogni 128 shader come la rivale, si serve sempre dei raster, da cui elabora solo un triangolo su ogni raster, ma la vera difficoltà è data dall’espulsione dei micro triangoli, fattore che spesso nei giochi come The Witcher, basati su un massiccio uso di tassellazione, o sui bench sintetici heaven benchmark (backface culling), facevano crollare la scheda perchè la pipeline grafica si ingolfava di dati, non eliminando a dovere la geometria già calcolata.

Il PDA, compatibile solo con le GPU Polaris o Vega di prossima generazione, fa in modo che la geometria venga espulsa subito, dopo tutte le operazioni sui vertici senza andare ad intasare i buffer. Siamo certi che questo sarà un bel guadagno nei giochi Gameworks Nvidia.

La scheda completa

IMG0051074

IMG0051077

IMG0051078

Sezione elettrica

IMG0051079

La Polaris 10, boosta sino ad un massimo di 1266mhz, è composta da ben sei fasi, 6 induttori ed i relativi condensatori e mosfet.

AMD non ha risparmiato nulla su questo chip, la sezione di alimentazione a 6 pin e spesso nel limite ma a livello di PCB è anche sovrabbondante.

Le 6 fasi sono divisi in modalità 5 più 1 , ovvero 5 fasi verso la GPU ed una verso le memorie samsung. Il rapporto è il classico, 3 fasi verso il sei pin, 3 fasi verso la motherboards,o gni fase è caricata a 30A, senza nessun sovraccarico.

Alcune testate hanno sottolineato tramite test qualche watt di troppo sulla motherboard, ma è un problema minimo, che ormai è praticamente fixato. La scheda madre, così il connettore a 6 pin possono essere impostati a valori più elevati, se qualche piccolo intoppo è stato segnalato, noi possiamo dirvi che alcuni utenti sotto liquido hanno spinto il chip sino a 300watt, 1,3volt e ben 1500mhz.

 

RX 480 e RX 460

IMG0051098

Dopo aver analizzato la RX 480, è doveroso dare uno sguardo alla piccola di casa AMD, la Polaris 11, un chip da 16 CU (ben 1024 shader processor) capace di avvicinarsi ed anche superare in overclock i ben 2,5 teraflops.

La scheda mantiene lo stesso design dei CU a 64 ALU ma le specifiche sono dimezzate, troviamo due rasterizzer capaci di elaborare 2 triangoli, 8 CU interni per 512 shader ed un bus a 128bit su una base di 2/4gb. Le ROP fisiche saranno ben 16 suddivise in 2 raster da 8.

Ogni ROP è espressamente progettata per il MSAA, in quanto integra 4 z-stencil per ROP.

La cache l2 sarà di 1mb, 512kb per memory controller

IMG0051111

Possiamo affermare che tale GPU soppianterà del tutto la R7 360, sia in velocità che in efficienza. Il TDP è attualmente pensato per soli 70 watt e il MSRP è proposto a 99/109$ ma è un dato non del tutto ufficiale.

Prestazionalmente si piazzerà tra la R7 370 e la R9 285/380 ma con le svariate migliorie, sia sulla memoria che sul geometry engine.

Non mancano ovviamente le novità video.

IMG0051133

Pieno supporto all’HDMI 2,0b che permette i 4K a 60Hz, HDCP 2,2 e DP 1.3/1.4.

DP 1.4 DP 1.4 consente l’uso di formati HDR, fino a 96 Hz per 10-bit 4K o fino a 200 Hz per 10-bit 1440p.

 

Considerazione Finale

Dopo una veloce analisi tecnica principale, non ci resta che attendere i campioni all’opera, la P10 dovrebbe essere in grado di superare molti limiti rispetto le più costose R9 390/390x, ma è limitata a 32 rop’s.

Segnaliamo anche che P10 non sarà l’unica scheda su tale fascia mainstream, ma AMD ha in serbo anche un’altra scheda da 32 CU (2048 shader), con un rapporto prezzo prestazioni ancora migliore a scapito di pochi frame in meno rispetto alla RX480

Loading...
Categorie
Speciali

ALTRI CONTENUTI