普通话也能转文字!谷歌云端语音识别服务正式上线
站长之家(ChinaZ.com) 4 月 21 日消息,Google 日前正式发布旗下云端语音识别 API ,支持 80 多种语言,包括粤语和普通话。Google 在去年夏天推出了云端语音识别 API 公开测试版,现在发布了正式版本,提供云端开发人员使用。Google 云端语音识别服务(Cloud Speech API)新版 API 加强了长版音频文件的转录精准度,也新增支持 WAV、Opus 和 Speex 文件格式,Google 表示,新版语音识别 API 比旧版的批处理速度快 3 倍。Google 云端?
知情人士:微软洽谈160亿美元收购语音识别服务提供商Nuance
据国外媒体报道,在260亿美元收购领英、75亿美元收购ZeniMax之后,微软仍在进行大手笔的收购,多家外媒报道称他们正在洽谈收购语音识别服务提供商Nuance,收购价格接近160亿美元。
谷歌的野心:通用语音识别大模型已经支持100+语言
去年11月,谷歌宣布推出「1000种语言计划」,旨在构建一个机器学习++模型,支持世界上使用最广泛的1000种语言,从为全球数十亿人带来更大的包容性。其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。USM+的基础模型架构和训练+pipeline+奠定了将语音建模扩展到未来1000种语言的根基。
Android手机不幸躺枪:谷歌云端备份失败 问题至今未修复
11 月 16 日消息,据9to5Google报道,过去几个月时间不少Android用户反映谷歌云端备份失败,至今未修复。
谷歌搜索将利用语音识别技术帮助用户学习复杂单词发音
为了让用户能更简单的学习单词的正确发音,谷歌日前引入了一个新的搜索功能,让用户练习一些复杂的单词。
谷歌人工智能技术 可将语音识别错误率降低29%
【CNMO新闻】近期,语音识别技术发展迅猛,像EdgeSpeechNet等最先进的模型能够达到97%的准确率,但即使是最好的系统偶尔也会被生僻字难倒。为了解决这个问题,谷歌和加利福尼亚大学的科学家提出了一种方法,可以利用
谷歌幻灯片工具增语音识别新功能
据新浪科技报道,谷歌本周宣布,将在Google Slides演示工具中加入新的自动字幕功能。此前,谷歌已经在多款产品中提供语音识别功能。例如,谷歌文档允许用户使用语音编辑文本,而谷歌的移动输入法Gboard也支持语音输入。Android TV用户可以使用自然语言语音搜索内容。
谷歌最牛语音识别上线:识别80种语言 粤语可直转文字
号外!号外!谷歌公司最近又推出了不得的黑科技——云端语音识别服务。与其他语音识别不同的是,该服务强大到能够识别全球超过 80 种语言,也就是说,有了它,全球各国的人们基本都可以告别打字,将语音转换为文字。
谷歌云端硬盘发布新功能:数据从iOS到安卓一键转移
12月14日消息,据国外媒体报道,如果选择放弃iOS转投 Android怀抱,谷歌云端硬盘能快速帮助你。Google Drive云端硬盘发布了最新功能:一键迁移iPhone数据,它能备份用户的日历活动、通讯录、照片和视频等
谷歌云端明年将初推出支持GPU的虚拟机
网易科技讯11月16日消息,据国外媒体报道,谷歌今天日宣布,将于2017年初通过其云端(Google Cloud Platform)的公共云发布图形处理器(GPU)支持的虚拟机(VM)实例。谷歌的竞争对手亚马逊网络服务(AWS),IBM SoftLayer和微软Azure过去都推出了支持GPU的虚拟机实例。谷歌希望凭借其按分钟而非小时计费的机制,和它提供的GPU多元化脱颖而出。用户可选择的GPU包括英伟达Tesla P100和Tesla K80,以及AMD FirePro S9300 x2。这种云
亚马逊在苹果、谷歌前找到了语音识别的答案,它是怎么做到的?
两年前,亚马逊经历了一场戏剧性变化——被寄予厚望的智能手机Fire Phone在上市遭遇惨败,几个月后推出的智能音箱Echo却大获成功。亚马逊没有花费太多时间思考,很快作出决定:放弃Fire Phone,押注Echo。一年之后,它收到了Echo结出的成功果实:
谷歌开放语音识别API 发布机器学习云平台
谷歌Next云计算大会今日在美国旧金山召开。谷歌在会上发布了面向开发者的新机器学习平台,并开放语音识别的API(应用程序编程接口)。机器学习平台初期将免费提供给开发者。
百度称其语音识别技术超谷歌苹果 但尚未商用
在移动互联网时代,语音录入逐渐取代文字录入,成为和用户和智能手机交互的主要收入。谷歌、苹果、微软等科技巨头,也在语音助理工具上展开争夺。
谷歌发布新版Chrome浏览器 添加语音识别功能
据国外媒体报道,科技网站eweek称,谷歌最新版浏览器Chrome 25在经过一段时间用户体验测试后,目前终于上线,面向所有用户免费下载。而Chrome 25的最大亮点是新增了语音识别功能。
谷歌Chrome测试版升级 添加语音识别功能
1月15日消息,据国外媒体报道,谷歌今日升级了测试版本的Chrome浏览器,添加了语音识别功能。谷歌在Chrome 25中加入了网络语音应用程序接口(Web Speech API)。这个API可以让开发者向应用中添加语音识别功能,让语音撰写邮件等操作成为现实。
Siri工作方式详解:本地语音识别+云计算服务
苹果的语音助理服务Siri时髦而聪明,在一些情况下也很有用。那么Siri是如何工作的?“语音识别”是Siri的核心
阿里开源视频自动化剪辑工具FunClip 支持中文语音识别
阿里巴巴通义实验室最近开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音内容裁剪视频,大大提高了视频编辑的效率。阿里巴巴通过这些开源项目,展示了其在AI技术领域的领导地位和对开放创新的承诺。
AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快
AssemblyAI最新研究成果展示了他们的Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。Universal-1比WhisperLarge-v3更准确,比fastWhisper更快,38秒可以处理60分钟音频。值得一提的是,非开源,仅提供API调用。
WhisperKit官网体验入口 AI自动语音识别模型压缩与优化工具在线使用地址
WhisperKit是一个专为自动语音识别模型压缩与优化设计的强大工具。它不仅支持对模型进行压缩和优化提供详细的性能评估数据。通过WhisperKit官网,您可以详细了解该工具的功能和应用,并体验其卓越的自动语音识别模型优化能力。
英伟达推新AI语音识别模型Parakeet 号称优于Whisper
领先的开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,这是一系列最先进的自动语音识别模型,能够以出色的准确性转录英语口语。ParakeetASR模型与Suno.ai合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。要在本地访问模型并探索工具包,请访问NVIDIANeMo的Github页面。