精品国产乱子伦一区二区……,午夜三级片在线观看不卡,亚洲国产精品隔壁老王

小米聲音理解大模型 MiDashengLM-7B 發(fā)布并全量開源，22 個公開評測集刷新最好成績

2025-08-05 09:02 IT之家

導讀：小米自研聲音理解大模型 MiDashengLM-7B 正式發(fā)布，并全量開源。

　　8 月 4 日消息，小米自研聲音理解大模型 MiDashengLM-7B 正式發(fā)布，并全量開源。

　　據小米官方介紹，MiDashengLM-7B 速度精度上實現雙突破：單樣本首 Token 延遲僅為同類模型 1/4、同顯存下并發(fā)超 20 倍，在 22 個公開評測集上刷新多模態(tài)大模型最好成績（SOTA）。

　　MiDashengLM-7B 基于 Xiaomi Dasheng 作為音頻編碼器和 Qwen2.5-Omni-7B Thinker 作為自回歸解碼器，通過創(chuàng)新的通用音頻描述訓練策略，實現了對語音、環(huán)境聲音和音樂的統一理解。

　　2024 年，小米發(fā)布的 Xiaomi Dasheng 聲音基座模型在國際上首次突破 AudioSet 50+ mAP，在 HEAR Benchmark 環(huán)境聲、語音、音樂三大領域建立領先優(yōu)勢并保持至今。

　　Xiaomi Dasheng 在小米的智能家居和汽車座艙等場景有超過 30 項落地應用。行業(yè)首發(fā)的車外喚醒防御、手機音箱全天候監(jiān)控異常聲音、“打個響指”環(huán)境音關聯 IoT 控制能力，以及小米 YU7 上搭載的增強哨兵模式劃車檢測等，背后都有 Xiaomi Dasheng 作為核心算法的賦能。

　　MiDashengLM 的訓練數據由 100% 的公開數據構成，模型以寬松的 Apache License 2.0 發(fā)布，同時支持學術和商業(yè)應用。

　　小米表示，不同于 Qwen2.5-Omni 等未公開訓練數據細節(jié)的模型，MiDashengLM 完整公開了 77 個數據源的詳細配比，技術報告中詳細介紹了從音頻編碼器預訓練到指令微調的全流程。

　　作為小米“人車家全生態(tài)”戰(zhàn)略的關鍵技術，MiDashengLM 通過統一理解語音、環(huán)境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發(fā)生了什么事情，還能分析發(fā)現這些事情的隱藏含義，提高用戶場景理解的泛化性。

　　基于 MiDashengLM 的模型通過自然語言和用戶交互，為用戶提更人性化的溝通和反饋，比如在用戶練習唱歌或練習外語時提供發(fā)音反饋并制定針對性提升方案，又比如在用戶駕駛車輛時實時對用戶關于環(huán)境聲音的提問做出解答。

　　MiDashengLM 以 Xiaomi Dasheng 音頻編碼器為核心組件，是 Xiaomi Dasheng 系列模型的重要升級。在當前版本的基礎上，小米已著手對該模型做計算效率的進一步升級，尋求終端設備上可離線部署，并完善基于用戶自然語言提示的聲音編輯等更全面的功能。

小米聲音理解大模型 MiDashengLM-7B 發(fā)布并全量開源，22 個公開評測集刷新最好成績

相關閱讀