Co je StepFun AI Step-Audio 2 Mini: Kompletní průvodce

  • Komplexní model pro porozumění, uvažování a generování řeči s voláním nástrojů a multimodálním RAG.
  • Duální tokenizace 2:3, prozodická kontrola a lokální/online demo s hotovými skripty.
  • SOTA vede k ASR, paralingvistice, MMAU a překladu; soutěžní převod řeči na řeč.

stepfun AI

StepFun AI Step-Audio 2 Mini Jedná se o komplexní model řeči, který sjednocuje porozumění zvuku, uvažování a generování do jediné architektury. Je navržen pro přirozené konverzace a hloubkovou analýzu řeči a zvládá úkoly jako například ASR, paralingvistické porozumění, zdravé uvažování, překlad a hlasový dialog, čímž se snižuje latence a minimalizují halucinace díky voláním nástrojů a multimodálnímu vyhledávání.

Kromě teorie, Step-Audio 2 Mini Vyniká ve veřejných testech i v reálných situacích: rozumí přízvukům a dialektům, zachycuje emoce a prozódii a je schopen… upravit barvu, rytmus a styl, dokonce i zpěv nebo rap. Navíc se integruje s vyhledávání na webu a zvuka je veřejně dostupný přes GitHub a Hugging Face, což usnadňuje jeho testování, audit a přizpůsobování potřebám produktu nebo výzkumu.

Co je StepFun AI Step-Audio 2 Mini

Stručně řečeno, jedná se o kompaktní verzi rodiny Step-Audio 2, multimodální hlasový model typu end-to-end Připraveno pro produkční prostředí, které sjednocuje klasické úlohy (ASR a TTS) s pokročilými funkcemi a nástroji pro dialogy. Na rozdíl od ASR + LLM + TTS postupně, jeho přímý audio-audio/textový design snižuje složitost a latenci, zachovává paralingvistické detaily (intonace, zabarvení, rytmus) a nevokální signály.

Mezi jeho pilíře patří: inteligentní konverzace s dlouhým kontextem a prozodickou citlivostí, Volání nativních nástrojů s multimodálním RAG (text a audio) pro vnášení aktualizovaných znalostí a výměna zvonku u dveří podle načtených referencí. Tato kombinace snižuje halucinace a činí odpovědi užitečnějšími a přirozenějšími.

Řadu doplňuje Step-Audio 2 (s vyšší kapacitou) a související komponenty ekosystému Step-Audio, včetně parametry základního modelu 130B používá se pro kontextový předtrénink se zvukem a efektivním TTS (Step-Audio-TTS-3B). Ačkoli Mini nevyžaduje masivní infrastrukturu 130B, dědí jeho generativní datový kanál a jemné pokyny pro hlasové ovládání.

Architektura a technické klíče

krokové audio 2 mini

Systém přijímá duální tokenizace a prokládané: sémantická kódová kniha s 1024 záznamy při ~16,7 Hz a další akustická kódová kniha s 4096 záznamy při ~25 Hz, synchronizovaná s časový poměr 2:3Tato integrace na úrovni tokenů umožňuje podrobnější reprezentaci jazykového obsahu i zvukové textury současně.

Pro generaci, a hybridní hlasový dekodér který kombinuje model porovnávání toku s vokodérem mel-to-wave. Při trénování s prokládaným schématem dvojité kódové knihy si systém zachovává srozumitelnost a přirozenost řeči během syntézy, a to i při ovládání emocí, rychlosti nebo stylu.

Architektura streamování se spoléhá na Ovladač který koordinuje VAD (detekci hlasové aktivity), tokenizaci zvuku v reálném čase, jazykový model Step-Audio a dekodér. Zahrnuje spekulativní generace (ohrožuje ~40 % tokenů) a textovou správu kontextu s komprese 14:1, což pomáhá udržovat soudržnost v dlouhých dialozích s přijatelnými náklady.

V dalším vzdělávání se SFT kombinují do ASR a TTS s posilováním lidskou zpětnou vazbou (RLHF) a uvažováním Řetězec myšlení zaměřené na paralingvistiku. To zlepšuje schopnost modelu interpretovat signály, jako například emoce, tón nebo hudba a reagovat uváženým a kontrolovatelným způsobem.

Stažení, instalace a lokální použití

Model je k dispozici v Objímání obličeje a oficiální repozitář se skripty připravenými pro inferenci a lokální webovou ukázkou. Kroky pro přípravu prostředí (conda + pip) a stažení pomocí Git LFS jsou přímočaré a na moderních počítačích, rychle replikovatelné.

conda create -n stepaudio2 python=3.10
conda activate stepaudio2
pip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml

# Repositorio y pesos
git clone https://github.com/stepfun-ai/Step-Audio2.git
cd Step-Audio2

# Modelos en Hugging Face
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini

Pro provedení prvního testu jednoduše spusťte vzorový skript: Inference funguje se zvukem i textem a umožňuje vám bez komplikací ověřit konfiguraci prostředí.

python examples.py

Je tam také lokální webová ukázka s jednoduchým rozhraním vytvořeným pomocí Gradia, ideálním pro vyhodnocování hlasové interakce v prohlížeči.

pip install gradio
python web_demo.py

Online dema, konzole a mobilní aplikace

StepFun nabízí konzole v reálném čase otestovat model z prohlížeče a také mobilní asistent s vestavěným vyhledáváním webu a zvuku. V aplikaci si ji jednoduše stáhněte z obchodu, otevřete ji a klepnutím na ikonu telefonu v pravém horním rohu aktivujte hlasový režim.

Komunita se může připojit k Skupina na WeChatu pomocí QR kódu k diskusi, sdílení výsledků a řešení otázek. A pokud dáváte přednost, odkazy pro přímé stažení jsou následující: GitHub (Step-Audio2), Objímání obličeje (Step-Audio-2-mini) a ModelScope (model stejného jména). U některých externích inzerátů se zobrazí varování ohledně souborů cookie nebo zprávy o kompatibilitě prohlížečů (například na Redditu nebo X), což je běžné na sociálních platformách.

  • GitHubhttps://github.com/stepfun-ai/Step-Audio2
  • Objímání obličejehttps://huggingface.co/stepfun-ai/Step-Audio-2-mini
  • ModelScopehttps://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

Benchmarkový výkon: porozumění textu, paralingvistika a další

Ve veřejných a domácích testech se Step-Audio 2 Mini a jeho větší bratr ukázali... výsledky benchmarkůNíže uvádíme klíčové body ve srovnání s komerčními a open source systémy: GPT-4o Audio, Qwen-Omni/Qwen2.5-Omni, Kimi-Audio, Omni-R1, Audio Flamingo 3, Doubao LLM ASR a další.

Vícejazyčný ASR (nižší míry CER/WER jsou lepší)

V angličtině je průměrný WER Step-Audio 2 již v roce 3,14 2 Mini za 3,50, se sadami jako Common Voice, FLEURS a LibriSpeech (čistý/ostatní). LibriSpeech „ostatní“ vyniká s 2,42 pro Step-Audio 2, pod otevřenými a komerčními alternativami. Číňan, průměrně 3,08 (Step-Audio 2) a 3,19 (Mini), s dobrými výsledky v AISHELL/AISHELL-2, KeSpeech a WenetSpeech.

Pro scénáře vícejazyčný Kromě toho září v japonštině (FLEURS) s 3,18 (Step-Audio 2) a 4,67 (Mini) a soupeří v kantonštině (Common Voice yue). V „vlastní“ sadě s čínskými přízvuky a dialekty průměr klesá na 8,85 (Step-Audio 2) a 9,85 (Mini), s jasným zlepšením v náročných dialektech, jako je Šanghajština (17,77 vs. 19,30 ve srovnání s jinými možnostmi, které přesahují 58).

Paralingvistické porozumění

V sadě StepEval-Audio-Paralingvistic, Step-Audio 2 dosahuje v průměru 83,09 a 2 Mini 80,00. Podle dimenzí: pohlaví a věk dosahují 100/96 (2) a 100/94 (Mini); barva tónu 82/80; pódium 78/78; emoce 86/82; rytmus 86/68; rychlost 88/74; styl 88/86; a vokál 68/76. Skok oproti předchozím systémům ukazuje jemná prozodická kontrola a percepční robustnost.

Audio uvažování a porozumění (MMAU)

V benchmarku MMAU, Step-Audio 2 vede s průměrem 78,0 (83,5 ve zvuku, 76,9 v hlase, 73,7 v hudbě), zatímco 2 Mini značka 73,2. Mezi porovnávanými: Omni-R1 77,0, Audio Flamingo 3 73,1, Gemini 2.5 Pro 71,6, Qwen2.5-Omni 71,5 a GPT-4o Audio 58,1. To ukazuje soutěživé sluchové uvažování i tváří v tvář komerčním alternativám.

Hlasový překlad

V CoVoST 2 (S2TT) dosahují průměrné hodnoty 39,29 pro Step-Audio 2 Mini a 39,26 pro Step-Audio 2, s větší silou v Angličtina→Čínština (~49). V CVSS (S2ST) vede Step-Audio 2 s průměrným skóre 30,87, zatímco Mini dosahuje skóre 29,08; GPT-4o Audio dosahuje skóre kolem 23,68. Celkově tyto výsledky konsolidují mezijazyková kompetence v textu a generované řeči.

Volání nativních nástrojů

V StepEval-Audio-Toolcall (zvuk, datum/čas, počasí a vyhledávání na webu) dosahuje Step-Audio 2 vysoká přesnost/stažení z paměti spouštěč a 100% v identifikaci typu/parametru, pokud je to relevantní. Například ve vyhledávání zvuku dosahuje jeho spouštěč průměrně 86,8/99,5; ve vyhledávání na webu 88,4/95,5; a v počasí 92,2/100. Oproti silné základní linii (Qwen3-32B) si udržuje velmi solidní rovnováhy mezi spouštěčem, typem a parametry.

Hlasová konverzace (URO-Bench)

V čínštině (základní/profesionální) dosahuje Step-Audio 2 průměrného skóre 83,32/68,25 a 2 Mini 77,81/69,57. V angličtině dosahuje GPT-4o Audio průměrného skóre 84,54/90,41, ale Step-Audio 2 ho těsně následuje v… porozumění a uvažování (92,72/76,51 v základní verzi U/R a 64,86/67,75 v verzi Pro), zatímco Mini nabízí základní průměr 74,36, což je na systém pozoruhodné otevřený od konce k konci.

Vztah se Step-Audio (130B) a TTS 3B

Ekosystém Step-Audio zahrnuje model 130B který slouží jako textový základ, s průběžným kontextualizovaným zvukovým předtréningem a následným tréninkem založeným na úkolech. Díky generativní datový engine, vysoce kvalitní zvuky jsou syntetizovány pro trénování a veřejné vydání efektivního 3B TTS (Step-Audio-TTS-3B) s velmi podrobnou kontrolou instrukcí (emoce, dialekty, styly).

V ASR, ve srovnání s referencemi jako např. Whisper Large-v3 a Qwen2-Audio, varianty Step-Audio Pretrain a Step-Audio-Chat, zaznamenávají Konkurenční CER/WER v Aishell-1/2, WenetSpeech a LibriSpeech. Například v Aishell-1 dosahuje Step-Audio Pretrain 0,87 % CER; a v LibriSpeech test-clean dosahuje Step-Audio-Chat 3,11 % WER, přičemž Qwen2-Audio dosahuje 1,6 % jako reference. Tato čísla odrážejí, že diskrétní tokenizace Zvuk může napříč různými sadami odpovídat nebo překonávat přístupy se skrytými funkcemi.

V TTS vykazují varianty Step-Audio-TTS-3B a „Single“ nízkou míru chyb a podobnost mluvčích (SS) vysoké ve srovnání s FireRedTTS, MaskGCT a CosyVoice/2. Například v test-zh dosahuje Step-Audio-TTS 1,17 % CER; v test-en 2,0 % WER s konkurenceschopným SS. Navíc při hodnocení generace z diskrétní tokenyStep-Audio-TTS-3B dosahuje CER (zh) 2,192 % a WER 3,585 % (en) s SS kolem 0,784/0,742, což jsou hodnoty, které odhalují... jasnost a stabilita hlasitý.

Požadavky a nasazení

Pro kompletní řadu Step-Audio doporučujeme Grafické karty NVIDIA s technologií CUDAReferenční konfigurace pro Step-Audio-Chat (130B) je čtyři A800/H800 80 GB. A dockerfile připravit prostředí a doporučení, jako je použití vLLM s tenzorovým paralelismem pro 130B (s ohledem na to, že oficiální větev nemusí ještě podporovat model Step 1 a že personalizovaná blesková pozornost použitou variantou ALiBi).

V případě Step-Audio 2 Mini jsou požadavky následující více obsahu a lokální inference je vhodná pro testování a prototypování. Webová ukázka a vzorové skripty usnadňují ověření zásobníku bez nutnosti složité orchestrace nebo distribuované infrastruktury.

Příklady použití a praktické příklady

Step-Audio 2 Mini se již osvědčil detekovat přirozené zvuky a profesionální dabing, ovládejte tempo řeči na vyžádání a provádět vyhledávání v reálném čase, aby vám přinášely nejnovější zprávy. Tváří v tvář filozofickým dilematům se ukazuje abstraktní dotazy jasnými metodami a kroky, které odrážejí jejich sluchové a verbální uvažování.

K dispozici jsou také plynně vícejazyčné příklady (čínština, angličtina, japonština), jazykové hry a idiomy jako „Prší kočky a psi„“, které lze vysvětlit jednoduše a přirozeným tónem. Mezi veřejné projevy patří kontrola rychlosti (velmi rychlé/velmi pomalé), což ukazuje, že model nejen rozumí obsahu, ale také řídí prozódii na vyžádání.

Licence a citace

Kód a modely v repozitáři jsou publikovány pod Licence Apache 2.0Související technickou zprávu lze citovat jako Step-Audio 2 Technical Report (arXiv: 2507.16632), s rozsáhlým autorstvím vedeným Boyongem Wu a kol. a ve spolupráci se StepFun AI. Více informací naleznete v hesle arXiv a v oficiálním BibTeXu.

@misc{wu2025stepaudio2technicalreport,
  title={Step-Audio 2 Technical Report},
  author={Boyong Wu et al.},
  year={2025},
  eprint={2507.16632},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2507.16632}
}

Step-Audio 2 Mini nabízí velmi vzácnou kombinaci přesnosti ASR, paralingvistického porozumění, sluchového uvažování a přirozené syntézy, zabalené v komplexním rámci připraveném pro praktické nasazení; s nástroji, multimodálním RAG a detailním hlasovým ovládáním je pozicionován jako otevřená, všestranná a efektivní možnost. SOTA v několika klíčových úkolech.