3D-STACKED AI PROCESSOR

ONE-TICKARCHITECTURE

Tensor compute 4 ชั้น ปิดยอดด้วย Cache L1/L2/L3 — เลื่อนลงเพื่อระเบิดชั้นชิปออกทีละเลเยอร์ มิติที่ 4 คือเวลา

▼ SCROLL

LAYER 0-1 · POWER

Backside Power Delivery

ไฟจ่ายตรงจากด้านหลังชิปผ่าน nano-TSV ยิงดิ่งขึ้นสู่หน่วยประมวลผล ไม่แย่งพื้นที่กับสายสัญญาณ

IR drop ลดลง ~30% · BEOL ด้านบนว่าง 100% สำหรับ data bus

VERTICAL INTERCONNECT

TSV Highway

Through-Silicon Via วิ่งทะลุทุกชั้น — เส้นแสงที่เห็นคือ pulse ข้อมูลที่เดินทางข้าม die ในแนวดิ่ง

Hybrid bonding pitch ~3-6 µm · bandwidth density ระดับ TB/s/mm²

COMPUTE STACK · T0-T3

Tensor Compute × 4 Dies

หน่วยประมวลผล Tensor ซ้อนกัน 4 ชั้น (T0-T3) แต่ละ die บรรจุ core array 8×8 พร้อม Scratchpad SRAM ขนาบข้าง — ควบคุม data movement ด้วยซอฟต์แวร์ล่วงหน้า ไม่มี cache miss ระหว่างคำนวณ

256 tensor cores รวม · SRAM access < 0.5 mm = 1 cycle @ 2 GHz · 1-Tick deterministic

MEMORY HIERARCHY · TOP STACK

Cache L1 / L2 / L3

หน่วยความจำ 3 ชั้นปิดยอด stack — L1 อยู่ล่างสุดของกลุ่ม ติดกับ Tensor die มากที่สุดเพื่อ latency ต่ำสุด ไล่ขึ้นไป L2 และ L3 ที่จุมากขึ้นแต่ช้าลงตามลำดับชั้น

L1 ใกล้ compute = hop สั้นสุด · ความหนา die เพิ่มตามความจุ · เชื่อมแนวดิ่งผ่าน TSV ตรงทุกชั้น

THERMAL + SIGNAL INTEGRITY

Diamond Spreader × Keep-Out Zones

ชั้นเพชรสังเคราะห์แทรกระหว่างกลุ่ม die พร้อมช่องเจาะให้ TSV วิ่งผ่าน — ช่องว่างทำหน้าที่เป็น Faraday cage จิ๋วบล็อก crosstalk และเป็น expansion joint ลดความเค้น CTE

k ≈ 2,200 W/m·K (14× ของซิลิคอน) · เป็นฉนวนไฟฟ้า loss ต่ำ

COOLING

Microfluidic Cold Plate

ท่อน้ำจิ๋วฝังในฝาปิดด้านบน ดึงความร้อนออกจาก stack โดยตรง — แก้ thermal throttling ของสถาปัตยกรรม 3D

ΔT ทั่ว die แบนราบ → clock jitter ต่ำ → guard band หดลง

ประกอบกลับ. พร้อมทำงานใน 1 Tick

Tensor Dies

3

Cache Tiers

25

TSV Columns

1

Tick to Compute

BSPDN · TSV · 4× Tensor Dies · Cache L1-L3 · Diamond Keep-Out Zones · Microfluidic Cooling — ทุกชั้นออกแบบมาเพื่อทลาย Memory Wall