MiMo-V2.5-ASR

中英双语 + 多方言语音识别,无需语言标签,自动识别语码混用中的各语言内容。

支持歌词转写,适应强噪声等复杂声学场景。

模型规格

模态

输入音频
输出文本

模型能力

语音识别
流式输出

性能

上下文长度8K tokens
最大输出2K tokens
RPM100
TPM10K

模型价格

人民币

输入音频时长
¥ 0.5元/小时

美元

输入音频时长
$0.074美元/小时

模型优势

中英双语 + 方言

支持中英双语识别及吴语、粤语、闽南语、四川话等多种中国方言,以及中英混合代码切换。

歌词转写

高精度中英文歌词转写,支持人声与伴奏混合场景。

复杂声学环境

在强噪声、远场、多说话人等挑战性声学条件下表现稳健。

知识密集内容

精准识别古诗词、专业术语、人名地名等知识密集型内容,自动生成标点。

Benchmark

真实场景中的表现

方言识别:四川话麻将对话

Text

「幺二八筒都成对,有的是机会。这把我看你们哪个跑得脱。」

Audio
0:00

方言识别:粤语 + 英语混合

Text

「大家有兴趣睇试食放题片嘅,可以支持下我哋。钟意睇嘅你,希望可以畀个 comment,like,share 畀朋友。订阅埋 Channel,㩒埋个钟仔,下次有新片就会通知,下次再同大家去食其他嘢。」

Audio
0:00

复杂声学场景:直播带货

Text

「这一千块钱啊,只有两百个,只有两百个,只有两百个人可以抢,快快快快快,手慢了就没有。」

Audio
0:00

知识密集场景:古诗词连读

Text

「丈夫生居天地之间,岂能郁郁久居人下。天子呼来不上船,自称臣是酒中仙。君不见黄河之水天上来,奔流到海不复回。山外青山楼外楼,西湖歌舞几时休。草衣家住断桥东,好句轻如湖上风。杨柳春风一杯酒,江湖夜雨十年灯。莫等闲,白了少年头,空悲切。暖风吹得游人醉,直把杭州作汴州。对影闻声已可怜,玉池荷叶正田田。本是后山人,偶作前堂客。」

Audio
0:00

歌词识别:中文流行(《兰亭序》)

Text

「兰亭临帖,行书如行云流水。月下门推,心细如你脚步碎。忙不迭,千年碑易拓,却难拓你的美。真迹绝,真心能给谁?牧笛横吹,黄酒小菜又几碟。」

Audio
0:00

歌词识别:英文歌曲

Text

It's never over. It's never over. The ribbon was crimson, the color of the night.

Audio
0:00

专有名词识别:电竞赛事解说

Text

「漂亮,漂亮,漂亮,就是这么打。因为我们确实也,RNG 赢需要三十、三十五分钟,T1 赢就要需要二十五分钟。狐狸给你,然后我用丽桑卓去打你的一个狐狸。是的。然后我看谁还敢质疑我!对,塔姆这个点把我们比较依赖的小明的这个开团克制得太死了。」

Audio
0:00

专有名词识别:英语体育解说

Text

Mane, Thiago, Luis Diaz. He's going to have a goal. It's deflected and it's in! Redemption, a route back for Liverpool from Luis Diaz with the help of a touch on the way through. And now it's time to believe again for those inside Anfield. And here comes another threat for Liverpool. Mohamed Salah's trying to get back. Round the corner goes Davis, and he's gone for goal and he's gone over the top. Simicass, one more burst. Naby Keita, Mohamed Salah. Still had a lot to do and the defender Sanchez got a touch.

Audio
0:00

选择适合你的接入方式

按量计费 API 接入

1

控制台充值

预充值模式,按音频时长计费,余额实时可查。

2

获取 API Key

在控制台创建账号,生成专属 API Key。

3

示例代码

仅需传入音频文件,指定模型为 mimo-v2.5-asr 即可调用。

import os
import base64
import urllib.request
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MIMO_API_KEY"),
    base_url="https://api.xiaomimimo.com/v1",
)

# Example audio URL
audio_url = "https://example-files.cnbj1.mi-fds.com/example-files/audio/audio_example.wav"
audio_file = "audio_example.wav"

# Download the audio file from URL (skip if already exists)
if not os.path.exists(audio_file):
    urllib.request.urlretrieve(audio_url, audio_file)

# To use a local file directly, replace the above with:
# audio_file = "your_local_audio.wav"
with open(audio_file, "rb") as f:
    audio_bytes = f.read()
audio_base64 = base64.b64encode(audio_bytes).decode("utf-8")

completion = client.chat.completions.create(
    model="mimo-v2.5-asr",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": f"data:audio/wav;base64,{audio_base64}"
                    }
                }
            ]
        }
    ],
    extra_body={
        "asr_options": {
            "language": "auto"
        }
    }
)

print(completion.model_dump_json())

Token Plan 订阅

1

购买套餐

包月 / 包年订阅,覆盖 MiMo V2.5 全系模型,高用量场景性价比显著优于按量计费。

Copyright©2026 Xiaomi. All Rights Reserved | Cookie Policy | Cookie Preferences

We use cookies and similar technologies of our own to ensure the proper functioning of the website, customize content according to user preferences and analyze users' interactions on the website, as well as their browsing habits. You can find more information in our Cookie Policy. Select an option or go to Cookie Settings to manage your preferences. Learn More.