返回    放大 +    缩小 -
阿里通义百聆再升级 3秒录音能无缝切换语种、方言与情绪
推荐
30
利好
57
利淡
22
AASTOCKS新闻
阿里(09988.HK)旗下通义大模型公布,通义百聆再升级,只需3秒录音,就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒,并包含9种通用语言及18种方言。一段嘈杂环境下的会议录音,AI也能毫秒级输出文字,绕口令、RAP、背景音乐干扰。

当中,Fun-CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支援9语种18方言口音;Fun-CosyVoice3 (0.5B)正式开源,提供zero-shot音色克隆能力,支援本地部署与二次开发;Fun-ASR模型能力增强,噪声场景准确率93%、支援歌词与说唱识别、31语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到160ms;Fun-ASR-Nano (0.8B)开源,Fun-ASR的轻量化版本,推理成本更低,模型开源,支援本地部署与定制化微调。(jl/a)

相关内容《大行》花旗料以旧换新政策对大部分内地电商属正面 可抵销明年上半年高基数影响
AASTOCKS新闻