3D-STACKED AI PROCESSOR
ONE-TICKARCHITECTURE
Tensor compute 4 ชั้น ปิดยอดด้วย Cache L1/L2/L3 — เลื่อนลงเพื่อระเบิดชั้นชิปออกทีละเลเยอร์ มิติที่ 4 คือเวลา
LAYER 0-1 · POWER
Backside Power Delivery
ไฟจ่ายตรงจากด้านหลังชิปผ่าน nano-TSV ยิงดิ่งขึ้นสู่หน่วยประมวลผล ไม่แย่งพื้นที่กับสายสัญญาณ
IR drop ลดลง ~30% · BEOL ด้านบนว่าง 100% สำหรับ data bus
VERTICAL INTERCONNECT
TSV Highway
Through-Silicon Via วิ่งทะลุทุกชั้น — เส้นแสงที่เห็นคือ pulse ข้อมูลที่เดินทางข้าม die ในแนวดิ่ง
Hybrid bonding pitch ~3-6 µm · bandwidth density ระดับ TB/s/mm²
COMPUTE STACK · T0-T3
Tensor Compute × 4 Dies
หน่วยประมวลผล Tensor ซ้อนกัน 4 ชั้น (T0-T3) แต่ละ die บรรจุ core array 8×8 พร้อม Scratchpad SRAM ขนาบข้าง — ควบคุม data movement ด้วยซอฟต์แวร์ล่วงหน้า ไม่มี cache miss ระหว่างคำนวณ
256 tensor cores รวม · SRAM access < 0.5 mm = 1 cycle @ 2 GHz · 1-Tick deterministic
MEMORY HIERARCHY · TOP STACK
Cache L1 / L2 / L3
หน่วยความจำ 3 ชั้นปิดยอด stack — L1 อยู่ล่างสุดของกลุ่ม ติดกับ Tensor die มากที่สุดเพื่อ latency ต่ำสุด ไล่ขึ้นไป L2 และ L3 ที่จุมากขึ้นแต่ช้าลงตามลำดับชั้น
L1 ใกล้ compute = hop สั้นสุด · ความหนา die เพิ่มตามความจุ · เชื่อมแนวดิ่งผ่าน TSV ตรงทุกชั้น
THERMAL + SIGNAL INTEGRITY
Diamond Spreader × Keep-Out Zones
ชั้นเพชรสังเคราะห์แทรกระหว่างกลุ่ม die พร้อมช่องเจาะให้ TSV วิ่งผ่าน — ช่องว่างทำหน้าที่เป็น Faraday cage จิ๋วบล็อก crosstalk และเป็น expansion joint ลดความเค้น CTE
k ≈ 2,200 W/m·K (14× ของซิลิคอน) · เป็นฉนวนไฟฟ้า loss ต่ำ
COOLING
Microfluidic Cold Plate
ท่อน้ำจิ๋วฝังในฝาปิดด้านบน ดึงความร้อนออกจาก stack โดยตรง — แก้ thermal throttling ของสถาปัตยกรรม 3D
ΔT ทั่ว die แบนราบ → clock jitter ต่ำ → guard band หดลง
ประกอบกลับ. พร้อมทำงานใน 1 Tick
4×
Tensor Dies
3
Cache Tiers
25
TSV Columns
1
Tick to Compute
BSPDN · TSV · 4× Tensor Dies · Cache L1-L3 · Diamond Keep-Out Zones · Microfluidic Cooling — ทุกชั้นออกแบบมาเพื่อทลาย Memory Wall