Rameno C1: Toto jsou nová jádra, která zvyšují výkon a umělou inteligenci.

  • Nová rodina jader Arm C1 (Ultra, Premium, Pro a Nano) s až o 45 % vyšším vícejádrovým výkonem.
  • SME2 vylepšuje AI na CPU: průměrné zlepšení 3,7x a až 5x při specifickém zatížení s nižší spotřebou energie.
  • C1-DSU umožňuje clustery až do 14 jader, sdílenou L3 a velmi flexibilní konfigurace.
  • Platforma Lumex CSS: Integrace CPU C1, GPU Mali G1 a podpora 6nm LPDDR3.

Jádra ramene C1

Nová rodina Jádra ramene C1 představuje zásadní posun v ekosystému mobilních a ultrapřenosných zařízení, nahrazuje známý Cortex jasnějším zaměřením na trvalý výkon a efektivitu. Tato generace přichází s... Platforma Lumex a s jasným cílem: urychlit umělou inteligenci na samotném zařízení bez kompromisů v oblasti výdrže baterie nebo teploty.

Kromě změny názvu návrh kombinuje Architektura Armv9.3-A, zásadní přepracování paměťového subsystému a významné posílení maticových výpočetních možností. Výsledkem je rozsáhlé zlepšení výkonu s nižší spotřebou energie a také plán určený pro chytré telefony, tablety, notebooky a nositelná zařízení.

Architektura a nové funkce jader Arm C1

Architektura jádra ARM C1

Řada C1 je rozdělena do čtyř variant: C1-Ultra (maximální výkon), C1-Prémiový (vysoký výkon na menší ploše), C1-Pro (zůstatek) a C1-Nano (maximální účinnost). Každý výrobce může tyto bloky kombinovat do heterogenních klastrů a vytvářet tak SoC přizpůsobené různým rozsahům a použitím s konfiguracemi až 14 jader.

Společnost Arm vylepšila jak front-end, tak back-end, včetně vylepšení predikce, mezipamětí a provádění mimo pořadí. Díky novému propojení a efektivnější (datově náročné) sdílené mezipaměti, SLC buňky), platforma nabízí průměrné zvýšení v každodenním používání blížící se 15 %, které se dá škálovat až +30 % u náročných nákladů a dosáhnout vrcholů až 45 % ve vícejádrovém procesoru.

Podpora paměti se vyvíjí s LPDDR6 pro snížení spotřeby energie a latence a zároveň zachování kompatibility s LPDDR5X s rychlostmi až 9600 MT/s. Tato paměťová základna spolu s přepracovaným clusterem posiluje trvalý výkon a odezvu při tepelném namáhání.

C1-Ultra: výkonnostní strop

Jako špičkové jádro, C1-Ultra Zaměřuje se na vlajkové lodě SoC a vysoce žádané úkoly, jako je výpočetní fotografie, velké modely umělé inteligence nebo mobilní AAA hry. Ve srovnání s Cortex-X925 hovoří Arm o... +25 % v jednom vlákně, což je číslo, které pomáhá škálovat celkový výkon v kombinaci s větším počtem jader v clusteru.

Front-end zlepšuje šířku pásma L1 instrukcí a přesnost predikce, zatímco back-end zvyšuje okno pro provedení mimo pořadí o přibližně 25 % a dosahuje přibližně 2.000 instrukcí současně. Kromě toho se datová kapacita L1 zdvojnásobila na 128 KB a rychlost čtení L1 se zrychlila přibližně o 33 %.

C1-Premium: vysoký výkon na menší ploše

Pro prémiová zařízení, která nepotřebují absolutní maximum, C1-Prémiový zachovává architekturu velmi blízkou Ultra, ale s 35% zmenšení plochyJe navržen tak, aby vyvažoval výkon a cenu a umožňoval kompaktnější provedení bez obětování významných číslic.

C1-Pro: Rovnováha a vícejádrové svaly

V centrálním segmentu, C1-Pro nahrazuje Cortex-A725 procesorem +11% účinnost při stejné spotřebě a se zlepšeními efektivity, která dosahují až o 26 % méně energie při stejném výkonuV herním průmyslu Arm uvádí zisky ve výši přibližně + 16% v této třídě jader.

Klíče se nacházejí ve výkonnějším front-endu (vylepšená statická predikce a Mnohem větší BTB) a backend s větší šířkou pásma v L1D a nižší latencí v L2, pokud je predikce správná. Prediktor byl také vyladěn pro zrychlení odezvy v reálných scénářích.

C1-Nano: efektivita nade vše

Pro lehké úkoly a extrémní úspory C1-Nano zvyšuje účinnost přibližně o 26% ve srovnání s jeho předchůdcem (oblast zůstala prakticky nedotčena, ~+2 % oproti A520). Fáze predikce a načítání byly odděleny, aby se instrukce do L1 dostaly dříve a zkrátily se čekání na neúspěšné predikce.

Kromě toho, vektorové zpracování, disky se vypnou, když se kanál zasekne, a provoz mezi L3 a DRAM se sníží (v průměru o 21 % a při určitém zatížení až o 39 %), což snižuje spotřebu energie a zlepšuje odezvu.

C1-DSU: Flexibilní clustery a nižší spotřeba

Nový C1-DSU Organizuje propojení jader pod sdílenou mezipamětí L3 a překlenuje mezeru se zbytkem SoC (RAM, GPU atd.). Ve srovnání s předchozími iteracemi tento design snižuje typickou spotřebu energie systému přibližně o ne 11% a vliv paměti o ~7 %, v závislosti na režimech, jako je L3 Rychlé zdřímnutí aby se minimalizovaly ztráty, když se nepoužívá.

Dalším klíčovým prvkem je integrace Akcelerátory SME2 jako prvky vnější k jádru: v C1-Ultra a C1-Premium je jejich přítomnost povinná, zatímco v C1-Pro a C1-Nano Je to volitelné v závislosti na návrhu výrobce. Kterékoli jádro v clusteru k nim má přístup, pokud jsou přítomna, což umožňuje velmi rozmanité kombinace (např. 2× C1‑Ultra + 6× C1‑Pro s jedním nebo dvěma akcelerátory SME2 nebo skromnější kombinace kombinující Pro a Nano).

Platforma Lumex zahrnuje také novou generaci grafických procesorů (GPU). Ačkoli se tato novinka zaměřuje na procesory (CPU), Mali G1 doprovázeno ~20% zlepšením grafického výkonu, zdvojnásobuje propustnost sledování paprsků a snižuje náklady na energii na snímek přibližně o 9 %, což posiluje kombinaci pro hry s primárně grafickým procesorem a úlohy s umělou inteligencí.

SME2 a role CPU v AI

SME2 na rameni C1

Velký skok v oblasti umělé inteligence přichází s SME2 (Rozšíření škálovatelné matice 2), který zrychluje násobení matic, vícenásobné predikáty a nové datové typy (včetně kompaktních přesností jako 2b/4b) a koordinuje se s SVE2 pro pokročilou vektorizaci. V agregovaných číslech Arm hovoří o průměrné zlepšení 3,7x s poklesem spotřeby blízkým ne 27%.

V praktických případech společnost prokázala snížení latence 4,7násobné rozpoznávání řeči (Whisper Base), 2,4–2,8násobné zrychlení v text na řeč a velké nárůsty generování tokenů pro LLM (např. Gemma 3), které se blíží × 5Běh na CPU zabraňuje přenosům na jiné akcelerátory, což zkracuje čekací doby a zajišťuje rychlejší odezvu.

Pro malé nebo interaktivní zátěže se CPU opět dostává do centra pozornosti: s EMS2Mnoho každodenních úkolů (lokální vylepšení obrazu, segmentace, klasifikace, efekty kamery nebo zvuk) se provádí rychleji, s menšími režijními náklady a bez nutnosti procházet sítí. Když se zvýší poptávka, může grafický procesor (GPU) nebo externí NPU nadále přebírat úkoly, ale CPU již nepředstavuje úzké hrdlo.

K dispozici je také softwarová podpora: integrace je v Linux a Android 16, optimalizované řetězce nástrojů a knihovny (KleidiAI) a kompatibilita s enginy jako například Unity a Unreal EngineDíky tomu budou aplikace a hry snázeji tyto vylepšení přijímat, jakmile se objeví první komerční SoC.

Platforma Lumex CSS spojuje všechny části dohromady (CPU C1, GPU Mali G1, propojení a paměť) s návrhy připravenými pro produkční prostředí 3 nm, hardwarová telemetrie a Kompatibilita ramenního systému s LPDDR6. To umožňuje partnerům urychlit jejich mobilní a notebookové projekty pomocí škálovatelných clusterů až 14 jader a funkcí umělé inteligence přímo v zařízení.

Rameno C1 kombinuje trvalý výkon, účinnost a skutečný impuls pro AI na CPU díky SME2; nabízejí flexibilitu C1-DSU pro přizpůsobení clusterů každé produktové řadě a tvoří pevný základ pro další vlnu mobilních a přenosných SoC, které se snaží vyvážit výkon, autonomii a schopnosti AI, aniž by byly vždy závislé na cloudu.

RISC-V SoC Sophgo
Související článek:
SOPHGO SG2000/SG2002: SoC pro AI s jádrem RISC-V + ARM