Архітектура Turing: специфікації, структура і ієрархія кеша

Кеші L1 і L2

NVIDIA пішла на всі запобіжні заходи, щоб інформація не просочилася завчасно, однак нашим колегам з ресурсу Videocardz вдалося добути два слайди з закритої презентації NVIDIA.

На першому слайді наведено технічні специфікації GPU TU102, в тому числі діаграма структури. Якість знімка залишає бажати кращого, тому діаграму розібрати складно, але інформація про GPU TU102 дозволяє розпізнати багато блоки. На слайді приведена повна версія GPU TU102. Чіп оснащений 4.608 потокових процесорів, 576 тензорними ядрами і 72 ядрами RT. Що відповідає конфігурації Quadro RTX 8000 . Відзначимо 36 геометричних блоків, 288 текстурних блоків і 96 конвеєрів растрових операцій, тобто ROP.

На ігрових відкритих в лінійці GeForce RTX 20 даний GPU буде використовуватися в усічених варіантах. У GeForce RTX 2080 Ti ми отримаємо 4.352 потокових процесорів, у GeForce RTX 2080 і GeForce RTX 2070 2.944 і 2.302, відповідно. На основі числа тензорних ядер і ядер RT повної версії GPU TU102 тепер можна розрахувати відповідні значення для GeForce RTX 2080 Ti, GeForce RTX 2080 і GeForce RTX 2070, нехай навіть NVIDIA поки не надала офіційного числа тензорних ядер і ядер RT.

У нас є інформація про кількість потокових процесорів, також ми знаємо, що в одному потоковому кластері може бути 32, 64 або навіть 128 потокових процесорів. Кластер SM (streaming multiprocessor) архітектури Pascal містив 128 потокових процесорів, в разі архітектури Volta NVIDIA змінила структуру на 64 потокових процесора в кластері SM. Оскільки архітектура Turing більше орієнтована на Volta, ніж на Pascal, можна припустити 64 потокових процесора в кластері SM і у Turing. Що відповідає числу тензорних ядер на SM. В архітектурі Volta використовуються вісім тензорних ядер на кластер SM - що напевно вірно і для Turing.

Перейдемо до нового елементу архітектури Turing - ядер RT. У разі 4.608 потокових процесорів ми отримуємо 72 ядра RT, що дозволяє припустити про використання одного ядра RT на кластер SM (4.608 потокових процесорів / 64 = 72 кластера SM = 72 ядра RT). Що стосується тензорних ядер, 72 кластера SM x 8 = 576 тензорних ядер в повній версії GPU.

Також ми тепер знаємо кількість текстурних блоків на кластер SM - чотири, як і у архітектури Volta. По інтерфейсу пам'яті розкладка не змінилася з архітектури Pascal: він розділений на 32-бітові блоки. GPU TU102 в повній конфігурації працює з 384-бітовим інтерфейсом пам'яті, NVIDIA для GeForce RTX 2080 Ti відключає один блок, що призводить до 352-бітному інтерфейсу. Кожен 32-бітний блок працює зі своїм чіпом пам'яті. 352/32 біта = 11 каналів пам'яті і 11 чіпів пам'яті GDDR6. Для GeForce RTX 2080 і GeForce RTX 2070 інтерфейс 256-бітний, відповідно, ми отримуємо 8 каналів пам'яті і 8 чіпів GDDR6. Кожен 32-бітний блок спирається на 8 ROP.

Технічні специфікації GeForce RTX 2080 Ti, RTX 2080 і RTX 2070 Модель GeForce RTX 2080 Ti GeForce RTX 2080 GeForce RTX 2070 Ціна 1.259 євро
95.990 руб. 849 євро
63.990 руб. 639 євро
47.990 руб. Технічні специфікації Архітектура Turing Turing Turing GPU TU102 TU104 TU104 Потокові процесори 4.352 2.944 2.304 Тензорні ядра 544 368 288 Ядра RT 68 46 36 Текстерно блоки 272 184 144 Геометричні блоки 34 23 18 ROPs 88 64 64 Частота GPU (базова) 1.350 МГц 1.515 МГц 1.410 МГц частота GPU (Boost) 1.635 МГц 1.800 МГц 1.710 МГц RTX-OPS 78 TRTX-OPS 60 TRTX-OPS 45 TRTX-OPS Гігалучей / с 10 Глуч / с 8 Глуч / с 6 Глуч / с

частота пам'яті

1.750 МГц 1.750 МГц 1.750 МГц Тип пам'яті GDDR6 GDDR6 GDDR6 Об'єм пам'яті 11 GB 8 GB 8 GB Ширина шини пам'яті 352 біт 256 біт 256 біт Пропускна здатність 616 Гбайт / с 448 Гбайт / с 448 Гбайт / с TDP 260 Вт 225 Вт 185 Вт Доп . харчування 2x 8-конт. 1x 8-конт. + 1x 6-конт. 1x 8-конт. SLI / NVLink NVLink 2-Way NVLink 2-Way NVLink 2-Way

Крім числа потокових процесорів тепер ми знаємо кількість тензорних ядер і ядер RT, а також інші архітектурні подробиці трьох відеокарт. GeForce RTX 2080 Ti містить 544 тензорних ядра і 68 ядер RT. GeForce RTX 2080 - 368 тензорних ядер і 46 ядер RT, у GeForce RTX 2070 - 288 тензорних ядер і 36 ядер RT. Відповідно, ми можемо розрахувати специфікації текстурних і геометричних блоків, а також ROP.

Кеші L1 і L2

На другому слайді показана ієрархія кеша. З першого погляду видно, що NVIDIA перенесла архітектуру Volta на Turing.

Кеш L2 вже був збільшений до 6 Мбайт в архітектурі Volta, і в архітектуру Turing він перейшов в такому вигляді. Відбулися зміни і з кешем L1, багато в чому знайомі з архітектури Volta. Якщо у Pascal використовувався окремий кеш L1 і загальний кеш, тепер NVIDIA їх об'єднала. Що теж знайоме по Volta. У разі Volta кеш L1 разом із загальним кешем мали обсяг 128 кбайт. Розмір загального кеша вільно конфігурується до 96 кбайт. В архітектурі Turing NVIDIA зменшила розмір кешу, тепер він становить 96 кбайт, але можливі варіанти конфігурації 64 кбайт (L1) + 32 кбайт (загальний) або 32 кбайт (L1) + 64 кбайт (загальний).

Тепер ми знаємо вже більше подробиць майбутніх відеокарт GeForce RTX 2080 Ti, GeForce RTX 2080 і GeForce RTX 2070, а також деталі архітектури Turing. У найближчі дні і тижні витоків має бути ще більше.