本篇文章7082字,读完约18分钟
最近,来自大西洋彼岸的一份报告成为许多人关注的焦点。
美国著名投资机构红树林资本合作伙伴发布的《2019年语音技术报告》(以下简称《报告》)指出,2025年语音经济规模将达到1万亿美元,正式超过移动应用经济。
人们已经捕捉到某种信号。
在过去的几年里,全球巨头如谷歌、微软、亚马逊、百度等。我在语音轨道上下了赌注,以下明星语音产品被投射在人们面前:回声智能扬声器、Siri智能语音助理、谷歌语音助理、科塔纳(微软小娜)人工智能助理、Alexa语音识别引擎和百度杜罗斯。
一种明显的感觉是,语音识别正在成为人类和互联网之间一种新的主流交流方式。
然而,人们不禁想到在匆忙和打赌背后的柏拉图式的问题:什么是聪明的声音?它从哪里来?去哪里?
一个
科技巨头争相智能语音
找到语音技术的“线索”并不难。
早在80年前,第一台能够合成语音的机器就诞生在美国新泽西州茉莉山的贝尔实验室。如果把语音技术的发展看作是一束光,那么这个被认为是世界上最伟大的实验室可以被看作是它的起点。
两年后,在1954年,蓝色巨人IBM与乔治敦语言学家合作,成功开发了一台能将60个俄语句子翻译成英语的机器。不久,第一个基于计算机的语音合成系统问世了,语音技术开始与不断增长的想象力相叠加。
不缺少两种能力,一种是想象力,另一种是创造力。但是即使经过几十年的使用,也很难预测语音技术的发展轨迹。
当然,更难以想象的是,它将成为一个全球舞台。
对于智能语音技术,有一个生动的比喻——遥控中心。现在一切都趋向于可视化,声音自然成为下一个产品形式的“莫尔斯电码”。谁能制定密码规则,谁就能控制整个局面。
这是一场持久战。
纵观全球智能语音互动市场的几大玩家,百度从2010年开始做语音技术,到现在已经有近十年了;美国的亚马逊·阿列克谢花了二十二年;即使是最新出生的谷歌助手,也已经积累了近十年的数据。
骑马不是一天的工作。隐藏在当今智能Siri、谷歌助手、微软小娜和百度背后的是行业的高科技护城河。
今年年初,百度宣布了语音领域的四大技术突破。其中,SMLTA是世界上第一个在线语音领域的流式多层注意力模型,被业界评为技术领域的“登月计划”。
在最近的人工智能开发者大会上,百度展示了一种“全双工免唤醒”的能力,这再次刷新了人机语音交互智能程度的上限。全双工免唤醒功能是小助理的一项重要技术创新。除了实现免唤醒单词的连续对话之外,全双工状态的小助理还有一项非常关键的技术突破,称为“拒绝响应”,即小助理知道何时回答和执行任务,何时只需要听、不说话和不响应。简而言之,语音技术的突破使机器的性能更接近“真实的人”
在现场,观众只感觉到更流畅的对话和更理智的智慧,但在这背后,许多学术问题被一一克服。
在去年公布的第20届中国专利审查结果中,百度获得了语音、机器翻译和无人驾驶汽车三项专利,成为目前国内专利领域人工智能领域的最高政府奖。其中,“语音专利”中涉及的新的语音识别模型,采用深度学习算法在24小时内实时分析数百亿大规模数据,使得语音识别技术的准确率达到97%,解决了语音识别领域的关键和共性技术问题,被麻省理工学院评为“2016年世界十大突破技术”。
在人工智能开发者大会上,百度还推出了一款用于远场语音交互的天鹅芯片,可以实现远场阵列信号的实时处理、高精度超低虚警语音唤醒和离线语音识别。另一方面,今年第一季度,百度的明星产品小型智能扬声器的出货量达到了330万台的超高水平,在中国市场排名第一。显然,百度正在建设全链路语音交互技术,它集成了底层硬件芯片、上层智能硬件系统,然后是系统软件、语音客户端、语音服务器和后端交互。
可以肯定的是,在未来十年,语音技术将成为一个新的决定性主题。
二
“技术+场景”是王
迄今为止,人工智能的发展经历了三次浪潮。
在第一波浪潮中,算法被用来建立推荐引擎,提供互联网接入服务,促进了谷歌、亚马逊和脸书的崛起。
第二波浪潮帮助企业通过使用结构化数据来优化决策过程,这导致了像Palantir这样的大数据公司的出现,它们挖掘大量结构化数据,找出人眼和人脑难以发现的信息相关性。
现在,第三波人工智能即将到来。人工智能已经获得了眼睛、耳朵和无数其他感官,可以收集以前从未见过的新数据,然后利用这些数据促进更复杂的过程自动化。
这种变化显然不同于过去。正如李彦宏最近在《人民日报》发表的一篇文章中所说,“作为引领这一变革的战略技术,人工智能对世界的影响将远远超过以前的工业革命。”
这是事实。在人工智能的浪潮下,许多领域的现有模型被重新塑造,应用场景被颠覆,生产关系开始被重新构建。
其中,发音是一个极其重要的部分。
摆脱了文字和屏幕的束缚,语音技术从根本上改变了人们与软件互动的方式,并且可以完全取代移动应用成为未来的主要交流方式。
如果人和移动应用程序之间的交互是二维的,那么语音交互就是三维的。这种升级竞争也带来了互联网的商机。
语音技术领域的融资金额不断上升就是最明显的例子。根据报告数据,今年语音技术初创企业的融资额高达10亿美元,远远超过2018年的10亿美元和2017年的10亿美元。与此同时,每次融资的规模也在大幅增加。
百度是当之无愧的领导者。
作为最早部署人工智能的技术公司之一,百度拥有基于超大规模神经网络的人工智能算法、数万亿个参数和数千亿个样本,依靠数十万台服务器和中国最大的GPU集群的计算能力;作为中国最大的搜索引擎公司,百度还收集了大量中文(尤其是普通话)音频数据,为百度语音识别系统Deep Speech 2的技术成果提供了基础数据优势和支持。
百度在美国的人工智能实验室负责人亚当·科茨(Adam Coates)曾表示,到2017年2月,深度语音2的短语识别错误率已经降低,它转录某些声音的能力基本上是“超人”的,这种能力可以比母语为普通话的人更准确地转录更短的查询。
更吸引外界关注的是一款基于语音识别、图像识别、自然语言处理和用户肖像等技术能力的小型人工智能语音助手(DuerOS会话式人工智能系统),它是百度技术的大师。
从2015年发布的DuerOS到2017年发布的DuerOS,再到2018年发布的一系列小型智能硬件产品,小型人工智能语音助手保持稳定的迭代速率,不断整合新功能,以开放的态度构建软硬结合的人工智能生态系统,更好地服务合作伙伴,成为名副其实的“智慧中心”。
从技术到产品,从产品到下游合作伙伴,我们可以看到百度的智能语音系统已经初具规模。将技术与特定场景相结合,百度在智能语音交互技术领域发挥着“标杆”作用。
三
声音,激发未来商业的关键
杰克·韦尔奇,通用电气公司的前首席执行官,被认为是20世纪最杰出的首席执行官,曾在他的自传中写道:“如果你想让汽车跑快10公里,你只需要加一个油门,如果你把速度提高一倍,你就必须改变赛道。ゥ
事实是,商业轨道正在转变。
在《2019年语音技术报告》中,有这样一种观点:“语音交互已经扭转了过去人机交互的现有形式,基于语音交互的用户和设备之间的新关系已经开始建立。就像以前从互联网到移动互联网的过渡一样,它的底部平台的新需求也在酝酿。”
从业务开发模式的角度来看,有两种变化,一种是自上而下,另一种是自下而上。前者要求市场快速调整其头寸,并快速使用新的安排和组合来应对新的变化;后者强调经验,而形式的改变更沉默,但更艰难,更持久。
语音技术对商业形式的影响与后者相同。
让我们对未来的业务原型做一个预测:在未来的某个时候,我们不再需要打字,而是可以使用语音信箱手势,键盘将基本上消失。有了语音技术的支持,产品形式将会完全改变,没有屏幕。智能手机、语音电子商务、语音广告、个性化品牌语音...
这个预测正在变成现实。
根据Juniper的数据,未来几年,语音电子商务将在美国和英国密集爆发,规模将从2018年的20亿美元增加到2022年的400亿美元。
同步登陆是亚马逊的语音广告业务。据报道,亚马逊计划开发Alexa语音助手的商业价值,然后建立一个大规模的数字广告业务,测试包括视频在内的各种广告产品,并为2018年广告收入的增长做准备。
在频繁布局的背后是每个家庭对语音技术商业价值的决定。
尽管智能语音技术还有许多问题,但此时此刻,我们应该提前做好准备,建立一个良好的技术基础,以便在新的形势到来时,我们可以利用这个机会。
可以预见,中国的智能语音市场也将成为推动这一浪潮不可或缺的力量和重要参与者。就像在中国徒步旅行了三个月的英国部长迈克一样。正如贝茨所记录的:“这片土地从未缺少奇迹。”
科创新闻网 最近,来自大西洋彼岸的一份报告成为许多人关注的焦点。这是一家著名的美国投资机构——红树林资本合作伙伴公司发布的2019年语言。
最近,来自大西洋彼岸的一份报告成为许多人关注的焦点。
美国著名投资机构红树林资本合作伙伴发布的《2019年语音技术报告》(以下简称《报告》)指出,2025年语音经济规模将达到1万亿美元,正式超过移动应用经济。
人们已经捕捉到某种信号。
在过去的几年里,全球巨头如谷歌、微软、亚马逊、百度等。我在语音轨道上下了赌注,以下明星语音产品被投射在人们面前:回声智能扬声器、Siri智能语音助理、谷歌语音助理、科塔纳(微软小娜)人工智能助理、Alexa语音识别引擎和百度杜罗斯。
一种明显的感觉是,语音识别正在成为人类和互联网之间一种新的主流交流方式。
然而,人们不禁想到在匆忙和打赌背后的柏拉图式的问题:什么是聪明的声音?它从哪里来?去哪里?
一个
科技巨头争相智能语音
找到语音技术的“线索”并不难。
早在80年前,第一台能够合成语音的机器就诞生在美国新泽西州茉莉山的贝尔实验室。如果把语音技术的发展看作是一束光,那么这个被认为是世界上最伟大的实验室可以被看作是它的起点。
两年后,在1954年,蓝色巨人IBM与乔治敦语言学家合作,成功开发了一台能将60个俄语句子翻译成英语的机器。不久,第一个基于计算机的语音合成系统问世了,语音技术开始与不断增长的想象力相叠加。
不缺少两种能力,一种是想象力,另一种是创造力。但是即使经过几十年的使用,也很难预测语音技术的发展轨迹。
当然,更难以想象的是,它将成为一个全球舞台。
对于智能语音技术,有一个生动的比喻——遥控中心。现在一切都趋向于可视化,声音自然成为下一个产品形式的“莫尔斯电码”。谁能制定密码规则,谁就能控制整个局面。
这是一场持久战。
纵观全球智能语音互动市场的几大玩家,百度从2010年开始做语音技术,到现在已经有近十年了;美国的亚马逊·阿列克谢花了二十二年;即使是最新出生的谷歌助手,也已经积累了近十年的数据。
骑马不是一天的工作。隐藏在当今智能Siri、谷歌助手、微软小娜和百度背后的是行业的高科技护城河。
今年年初,百度宣布了语音领域的四大技术突破。其中,SMLTA是世界上第一个在线语音领域的流式多层注意力模型,被业界评为技术领域的“登月计划”。
在最近的人工智能开发者大会上,百度展示了一种“全双工免唤醒”的能力,这再次刷新了人机语音交互智能程度的上限。全双工免唤醒功能是小助理的一项重要技术创新。除了实现免唤醒单词的连续对话之外,全双工状态的小助理还有一项非常关键的技术突破,称为“拒绝响应”,即小助理知道何时回答和执行任务,何时只需要听、不说话和不响应。简而言之,语音技术的突破使机器的性能更接近“真实的人”
在现场,观众只感觉到更流畅的对话和更理智的智慧,但在这背后,许多学术问题被一一克服。
在去年公布的第20届中国专利审查结果中,百度获得了语音、机器翻译和无人驾驶汽车三项专利,成为目前国内专利领域人工智能领域的最高政府奖。其中,“语音专利”中涉及的新的语音识别模型,采用深度学习算法在24小时内实时分析数百亿大规模数据,使得语音识别技术的准确率达到97%,解决了语音识别领域的关键和共性技术问题,被麻省理工学院评为“2016年世界十大突破技术”。
在人工智能开发者大会上,百度还推出了一款用于远场语音交互的天鹅芯片,可以实现远场阵列信号的实时处理、高精度超低虚警语音唤醒和离线语音识别。另一方面,今年第一季度,百度的明星产品小型智能扬声器的出货量达到了330万台的超高水平,在中国市场排名第一。显然,百度正在建设全链路语音交互技术,它集成了底层硬件芯片、上层智能硬件系统,然后是系统软件、语音客户端、语音服务器和后端交互。
可以肯定的是,在未来十年,语音技术将成为一个新的决定性主题。
二
“技术+场景”是王
迄今为止,人工智能的发展经历了三次浪潮。
在第一波浪潮中,算法被用来建立推荐引擎,提供互联网接入服务,促进了谷歌、亚马逊和脸书的崛起。
第二波浪潮帮助企业通过使用结构化数据来优化决策过程,这导致了像Palantir这样的大数据公司的出现,它们挖掘大量结构化数据,找出人眼和人脑之间难以发现的信息相关性。
现在,第三波人工智能即将到来。人工智能已经获得了眼睛、耳朵和无数其他感官,可以收集以前从未见过的新数据,然后利用这些数据促进更复杂的过程自动化。
这种变化显然不同于过去。正如李彦宏最近在《人民日报》发表的一篇文章中所说,“作为引领这一变革的战略技术,人工智能对世界的影响将远远超过以前的工业革命。”
这是事实。在人工智能的浪潮下,许多领域的现有模型被重新塑造,应用场景被颠覆,生产关系开始被重新构建。
其中,发音是一个极其重要的部分。
摆脱了文字和屏幕的束缚,语音技术从根本上改变了人们与软件互动的方式,并且可以完全取代移动应用成为未来的主要交流方式。
如果人和移动应用程序之间的交互是二维的,那么语音交互就是三维的。这种升级竞争也带来了互联网的商机。
语音技术领域的融资金额不断上升就是最明显的例子。根据报告数据,今年语音技术初创企业的融资额高达10亿美元,远远超过2018年的10亿美元和2017年的10亿美元。与此同时,每次融资的规模也在大幅增加。
百度是当之无愧的领导者。
作为最早部署人工智能的技术公司之一,百度拥有基于超大规模神经网络的人工智能算法、数万亿个参数和数千亿个样本,依靠数十万台服务器和中国最大的GPU集群的计算能力;作为中国最大的搜索引擎公司,百度还收集了大量中文(尤其是普通话)音频数据,为百度语音识别系统Deep Speech 2的技术成果提供了基础数据优势和支持。
百度在美国的人工智能实验室负责人亚当·科茨(Adam Coates)曾表示,到2017年2月,深度语音2的短语识别错误率已经降低,它转录某些声音的能力基本上是“超人”的,这种能力可以比母语为普通话的人更准确地转录更短的查询。
更吸引外界关注的是一款基于语音识别、图像识别、自然语言处理和用户肖像等技术能力的小型人工智能语音助手(DuerOS会话式人工智能系统),它是百度技术的大师。
从2015年发布的DuerOS到2017年发布的DuerOS,再到2018年发布的一系列小型智能硬件产品,小型人工智能语音助手保持稳定的迭代速率,不断整合新功能,以开放的态度构建软硬结合的人工智能生态系统,更好地服务合作伙伴,成为名副其实的“智慧中心”。
从技术到产品,从产品到下游合作伙伴,我们可以看到百度的智能语音系统已经初具规模。将技术与特定场景相结合,百度在智能语音交互技术领域发挥着“标杆”作用。
三
声音,激发未来商业的关键
杰克·韦尔奇,通用电气公司的前首席执行官,被认为是20世纪最杰出的首席执行官,曾在他的自传中写道:“如果你想让汽车跑快10公里,你只需要加一个油门,如果你把速度提高一倍,你就必须改变赛道。ゥ
事实是,商业轨道正在转变。
在《2019年语音技术报告》中,有这样一种观点:“语音交互已经扭转了过去人机交互的现有形式,基于语音交互的用户和设备之间的新关系已经开始建立。就像以前从互联网到移动互联网的过渡一样,它的底部平台的新需求也在酝酿。”
从业务开发模式的角度来看,有两种变化,一种是自上而下,另一种是自下而上。前者要求市场快速调整其头寸,并快速使用新的安排和组合来应对新的变化;后者强调经验,而形式的改变更沉默,但更艰难,更持久。
语音技术对商业形式的影响与后者相同。
让我们对未来的业务原型做一个预测:在未来的某个时候,我们不再需要打字,而是可以使用语音信箱手势,键盘将基本上消失。有了语音技术的支持,产品形式将会完全改变,没有屏幕。智能手机、语音电子商务、语音广告、个性化品牌语音...
这个预测正在变成现实。
根据Juniper的数据,未来几年,语音电子商务将在美国和英国密集爆发,规模将从2018年的20亿美元增加到2022年的400亿美元。
同步登陆是亚马逊的语音广告业务。据报道,亚马逊计划开发Alexa语音助手的商业价值,然后建立一个大规模的数字广告业务,测试包括视频在内的各种广告产品,并为2018年广告收入的增长做准备。
在频繁布局的背后,是每个家庭对语音技术商业价值的判断。
尽管智能语音技术还有许多问题,但此时此刻,我们应该提前做好准备,建立一个良好的技术基础,以便在新的形势到来时,我们可以利用这个机会。
可以预见,中国的智能语音市场也将成为推动这一浪潮不可或缺的力量和重要参与者。就像在中国徒步旅行了三个月的英国部长迈克一样。正如贝茨所记录的:“这片土地从未缺少奇迹。”
关键词:编辑:全球新闻网
标题:技术巨头的语音业务
地址:http://www.9u2j.com/wnylyw/3552.html