StepFun AI Step-Audio 2 Mini Jedná se o komplexní model řeči, který sjednocuje porozumění zvuku, uvažování a generování do jediné architektury. Je navržen pro přirozené konverzace a hloubkovou analýzu řeči a zvládá úkoly jako například ASR, paralingvistické porozumění, zdravé uvažování, překlad a hlasový dialog, čímž se snižuje latence a minimalizují halucinace díky voláním nástrojů a multimodálnímu vyhledávání.
Kromě teorie, Step-Audio 2 Mini Vyniká ve veřejných testech i v reálných situacích: rozumí přízvukům a dialektům, zachycuje emoce a prozódii a je schopen… upravit barvu, rytmus a styl, dokonce i zpěv nebo rap. Navíc se integruje s vyhledávání na webu a zvuka je veřejně dostupný přes GitHub a Hugging Face, což usnadňuje jeho testování, audit a přizpůsobování potřebám produktu nebo výzkumu.
Co je StepFun AI Step-Audio 2 Mini
Stručně řečeno, jedná se o kompaktní verzi rodiny Step-Audio 2, multimodální hlasový model typu end-to-end Připraveno pro produkční prostředí, které sjednocuje klasické úlohy (ASR a TTS) s pokročilými funkcemi a nástroji pro dialogy. Na rozdíl od ASR + LLM + TTS postupně, jeho přímý audio-audio/textový design snižuje složitost a latenci, zachovává paralingvistické detaily (intonace, zabarvení, rytmus) a nevokální signály.
Mezi jeho pilíře patří: inteligentní konverzace s dlouhým kontextem a prozodickou citlivostí, Volání nativních nástrojů s multimodálním RAG (text a audio) pro vnášení aktualizovaných znalostí a výměna zvonku u dveří podle načtených referencí. Tato kombinace snižuje halucinace a činí odpovědi užitečnějšími a přirozenějšími.
Řadu doplňuje Step-Audio 2 (s vyšší kapacitou) a související komponenty ekosystému Step-Audio, včetně parametry základního modelu 130B používá se pro kontextový předtrénink se zvukem a efektivním TTS (Step-Audio-TTS-3B). Ačkoli Mini nevyžaduje masivní infrastrukturu 130B, dědí jeho generativní datový kanál a jemné pokyny pro hlasové ovládání.
Architektura a technické klíče
Systém přijímá duální tokenizace a prokládané: sémantická kódová kniha s 1024 záznamy při ~16,7 Hz a další akustická kódová kniha s 4096 záznamy při ~25 Hz, synchronizovaná s časový poměr 2:3Tato integrace na úrovni tokenů umožňuje podrobnější reprezentaci jazykového obsahu i zvukové textury současně.
Pro generaci, a hybridní hlasový dekodér který kombinuje model porovnávání toku s vokodérem mel-to-wave. Při trénování s prokládaným schématem dvojité kódové knihy si systém zachovává srozumitelnost a přirozenost řeči během syntézy, a to i při ovládání emocí, rychlosti nebo stylu.
Architektura streamování se spoléhá na Ovladač který koordinuje VAD (detekci hlasové aktivity), tokenizaci zvuku v reálném čase, jazykový model Step-Audio a dekodér. Zahrnuje spekulativní generace (ohrožuje ~40 % tokenů) a textovou správu kontextu s komprese 14:1, což pomáhá udržovat soudržnost v dlouhých dialozích s přijatelnými náklady.
V dalším vzdělávání se SFT kombinují do ASR a TTS s posilováním lidskou zpětnou vazbou (RLHF) a uvažováním Řetězec myšlení zaměřené na paralingvistiku. To zlepšuje schopnost modelu interpretovat signály, jako například emoce, tón nebo hudba a reagovat uváženým a kontrolovatelným způsobem.
Stažení, instalace a lokální použití
Model je k dispozici v Objímání obličeje a oficiální repozitář se skripty připravenými pro inferenci a lokální webovou ukázkou. Kroky pro přípravu prostředí (conda + pip) a stažení pomocí Git LFS jsou přímočaré a na moderních počítačích, rychle replikovatelné.
conda create -n stepaudio2 python=3.10
conda activate stepaudio2
pip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml
# Repositorio y pesos
git clone https://github.com/stepfun-ai/Step-Audio2.git
cd Step-Audio2
# Modelos en Hugging Face
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini
Pro provedení prvního testu jednoduše spusťte vzorový skript: Inference funguje se zvukem i textem a umožňuje vám bez komplikací ověřit konfiguraci prostředí.
python examples.py
Je tam také lokální webová ukázka s jednoduchým rozhraním vytvořeným pomocí Gradia, ideálním pro vyhodnocování hlasové interakce v prohlížeči.
pip install gradio
python web_demo.py
Online dema, konzole a mobilní aplikace
StepFun nabízí konzole v reálném čase otestovat model z prohlížeče a také mobilní asistent s vestavěným vyhledáváním webu a zvuku. V aplikaci si ji jednoduše stáhněte z obchodu, otevřete ji a klepnutím na ikonu telefonu v pravém horním rohu aktivujte hlasový režim.
Komunita se může připojit k Skupina na WeChatu pomocí QR kódu k diskusi, sdílení výsledků a řešení otázek. A pokud dáváte přednost, odkazy pro přímé stažení jsou následující: GitHub (Step-Audio2), Objímání obličeje (Step-Audio-2-mini) a ModelScope (model stejného jména). U některých externích inzerátů se zobrazí varování ohledně souborů cookie nebo zprávy o kompatibilitě prohlížečů (například na Redditu nebo X), což je běžné na sociálních platformách.
- GitHubhttps://github.com/stepfun-ai/Step-Audio2
- Objímání obličejehttps://huggingface.co/stepfun-ai/Step-Audio-2-mini
- ModelScopehttps://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
Benchmarkový výkon: porozumění textu, paralingvistika a další
Ve veřejných a domácích testech se Step-Audio 2 Mini a jeho větší bratr ukázali... výsledky benchmarkůNíže uvádíme klíčové body ve srovnání s komerčními a open source systémy: GPT-4o Audio, Qwen-Omni/Qwen2.5-Omni, Kimi-Audio, Omni-R1, Audio Flamingo 3, Doubao LLM ASR a další.
Vícejazyčný ASR (nižší míry CER/WER jsou lepší)
V angličtině je průměrný WER Step-Audio 2 již v roce 3,14 2 Mini za 3,50, se sadami jako Common Voice, FLEURS a LibriSpeech (čistý/ostatní). LibriSpeech „ostatní“ vyniká s 2,42 pro Step-Audio 2, pod otevřenými a komerčními alternativami. Číňan, průměrně 3,08 (Step-Audio 2) a 3,19 (Mini), s dobrými výsledky v AISHELL/AISHELL-2, KeSpeech a WenetSpeech.
Pro scénáře vícejazyčný Kromě toho září v japonštině (FLEURS) s 3,18 (Step-Audio 2) a 4,67 (Mini) a soupeří v kantonštině (Common Voice yue). V „vlastní“ sadě s čínskými přízvuky a dialekty průměr klesá na 8,85 (Step-Audio 2) a 9,85 (Mini), s jasným zlepšením v náročných dialektech, jako je Šanghajština (17,77 vs. 19,30 ve srovnání s jinými možnostmi, které přesahují 58).
Paralingvistické porozumění
V sadě StepEval-Audio-Paralingvistic, Step-Audio 2 dosahuje v průměru 83,09 a 2 Mini 80,00. Podle dimenzí: pohlaví a věk dosahují 100/96 (2) a 100/94 (Mini); barva tónu 82/80; pódium 78/78; emoce 86/82; rytmus 86/68; rychlost 88/74; styl 88/86; a vokál 68/76. Skok oproti předchozím systémům ukazuje jemná prozodická kontrola a percepční robustnost.
Audio uvažování a porozumění (MMAU)
V benchmarku MMAU, Step-Audio 2 vede s průměrem 78,0 (83,5 ve zvuku, 76,9 v hlase, 73,7 v hudbě), zatímco 2 Mini značka 73,2. Mezi porovnávanými: Omni-R1 77,0, Audio Flamingo 3 73,1, Gemini 2.5 Pro 71,6, Qwen2.5-Omni 71,5 a GPT-4o Audio 58,1. To ukazuje soutěživé sluchové uvažování i tváří v tvář komerčním alternativám.
Hlasový překlad
V CoVoST 2 (S2TT) dosahují průměrné hodnoty 39,29 pro Step-Audio 2 Mini a 39,26 pro Step-Audio 2, s větší silou v Angličtina→Čínština (~49). V CVSS (S2ST) vede Step-Audio 2 s průměrným skóre 30,87, zatímco Mini dosahuje skóre 29,08; GPT-4o Audio dosahuje skóre kolem 23,68. Celkově tyto výsledky konsolidují mezijazyková kompetence v textu a generované řeči.
Volání nativních nástrojů
V StepEval-Audio-Toolcall (zvuk, datum/čas, počasí a vyhledávání na webu) dosahuje Step-Audio 2 vysoká přesnost/stažení z paměti spouštěč a 100% v identifikaci typu/parametru, pokud je to relevantní. Například ve vyhledávání zvuku dosahuje jeho spouštěč průměrně 86,8/99,5; ve vyhledávání na webu 88,4/95,5; a v počasí 92,2/100. Oproti silné základní linii (Qwen3-32B) si udržuje velmi solidní rovnováhy mezi spouštěčem, typem a parametry.
Hlasová konverzace (URO-Bench)
V čínštině (základní/profesionální) dosahuje Step-Audio 2 průměrného skóre 83,32/68,25 a 2 Mini 77,81/69,57. V angličtině dosahuje GPT-4o Audio průměrného skóre 84,54/90,41, ale Step-Audio 2 ho těsně následuje v… porozumění a uvažování (92,72/76,51 v základní verzi U/R a 64,86/67,75 v verzi Pro), zatímco Mini nabízí základní průměr 74,36, což je na systém pozoruhodné otevřený od konce k konci.
Vztah se Step-Audio (130B) a TTS 3B
Ekosystém Step-Audio zahrnuje model 130B který slouží jako textový základ, s průběžným kontextualizovaným zvukovým předtréningem a následným tréninkem založeným na úkolech. Díky generativní datový engine, vysoce kvalitní zvuky jsou syntetizovány pro trénování a veřejné vydání efektivního 3B TTS (Step-Audio-TTS-3B) s velmi podrobnou kontrolou instrukcí (emoce, dialekty, styly).
V ASR, ve srovnání s referencemi jako např. Whisper Large-v3 a Qwen2-Audio, varianty Step-Audio Pretrain a Step-Audio-Chat, zaznamenávají Konkurenční CER/WER v Aishell-1/2, WenetSpeech a LibriSpeech. Například v Aishell-1 dosahuje Step-Audio Pretrain 0,87 % CER; a v LibriSpeech test-clean dosahuje Step-Audio-Chat 3,11 % WER, přičemž Qwen2-Audio dosahuje 1,6 % jako reference. Tato čísla odrážejí, že diskrétní tokenizace Zvuk může napříč různými sadami odpovídat nebo překonávat přístupy se skrytými funkcemi.
V TTS vykazují varianty Step-Audio-TTS-3B a „Single“ nízkou míru chyb a podobnost mluvčích (SS) vysoké ve srovnání s FireRedTTS, MaskGCT a CosyVoice/2. Například v test-zh dosahuje Step-Audio-TTS 1,17 % CER; v test-en 2,0 % WER s konkurenceschopným SS. Navíc při hodnocení generace z diskrétní tokenyStep-Audio-TTS-3B dosahuje CER (zh) 2,192 % a WER 3,585 % (en) s SS kolem 0,784/0,742, což jsou hodnoty, které odhalují... jasnost a stabilita hlasitý.
Požadavky a nasazení
Pro kompletní řadu Step-Audio doporučujeme Grafické karty NVIDIA s technologií CUDAReferenční konfigurace pro Step-Audio-Chat (130B) je čtyři A800/H800 80 GB. A dockerfile připravit prostředí a doporučení, jako je použití vLLM s tenzorovým paralelismem pro 130B (s ohledem na to, že oficiální větev nemusí ještě podporovat model Step 1 a že personalizovaná blesková pozornost použitou variantou ALiBi).
V případě Step-Audio 2 Mini jsou požadavky následující více obsahu a lokální inference je vhodná pro testování a prototypování. Webová ukázka a vzorové skripty usnadňují ověření zásobníku bez nutnosti složité orchestrace nebo distribuované infrastruktury.
Příklady použití a praktické příklady
Step-Audio 2 Mini se již osvědčil detekovat přirozené zvuky a profesionální dabing, ovládejte tempo řeči na vyžádání a provádět vyhledávání v reálném čase, aby vám přinášely nejnovější zprávy. Tváří v tvář filozofickým dilematům se ukazuje abstraktní dotazy jasnými metodami a kroky, které odrážejí jejich sluchové a verbální uvažování.
K dispozici jsou také plynně vícejazyčné příklady (čínština, angličtina, japonština), jazykové hry a idiomy jako „Prší kočky a psi„“, které lze vysvětlit jednoduše a přirozeným tónem. Mezi veřejné projevy patří kontrola rychlosti (velmi rychlé/velmi pomalé), což ukazuje, že model nejen rozumí obsahu, ale také řídí prozódii na vyžádání.
Licence a citace
Kód a modely v repozitáři jsou publikovány pod Licence Apache 2.0Související technickou zprávu lze citovat jako Step-Audio 2 Technical Report (arXiv: 2507.16632), s rozsáhlým autorstvím vedeným Boyongem Wu a kol. a ve spolupráci se StepFun AI. Více informací naleznete v hesle arXiv a v oficiálním BibTeXu.
@misc{wu2025stepaudio2technicalreport,
title={Step-Audio 2 Technical Report},
author={Boyong Wu et al.},
year={2025},
eprint={2507.16632},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.16632}
}
Step-Audio 2 Mini nabízí velmi vzácnou kombinaci přesnosti ASR, paralingvistického porozumění, sluchového uvažování a přirozené syntézy, zabalené v komplexním rámci připraveném pro praktické nasazení; s nástroji, multimodálním RAG a detailním hlasovým ovládáním je pozicionován jako otevřená, všestranná a efektivní možnost. SOTA v několika klíčových úkolech.
