本篇文章3990字,读完约10分钟

这只是由移动互联网引发的语言浪潮中的日常琐事之一。

每天,数亿条语音信息通过语音识别技术被机器转换成文字;其中一些以机器学习的方式进行分析,给出具体的含义,为人机交互中用户的语音搜索提供答案。

据统计,谷歌25%的移动搜索结果来自语音,在百度这个比例也超过了10%;siri前后出现的一批第三方语音助理正迅速占领国内智能终端,为用户提供各种信息查询服务和siri等简单的娱乐功能;在智能电视、导航、语言学习等领域。远离公众视线的语音公司正在提供最基本的技术支持。

然而,在半个世纪的人工智能概念中,智能语音的到来似乎有些晚了。

关键的推动力来自云的形成。“在过去,巨大的计算量构成了提高识别精度的门槛,也限制了识别的应用场景(通常只有特殊领域)。如今,随着云计算和移动互联网等终端的便捷接入,语音识别已越来越成为一种普遍的服务能力。”

在中国工业和信息化部公布的未来三至五年计划中,智能语音技术和行业推广是工作重点,政府已正式提出“智能语音真正成为移动互联网的入口”。

然而,对于业内企业家来说,如何将创新技术推向市场是一场持久战。从最初进入资本市场的IFlytek(报价、咨询),到分布在语音识别和语义分析领域的大小公司,2b和2c商业模式之间的斗争是不可避免的。您是横向技术服务提供商还是深度产品提供商?目前,语音链中的每个企业应该如何解决产业化问题?

识别困难

走在北京海淀的一所大学的校园里,你可能会突然停下来,根据你的笔记本,面对着他的手机,用你的地方口音邀请你读一段日常生活的对话。

同样的场景,在不同的文本中,被重复了数百次。这项看似“繁重”的工作是智能语音管道的开始。

在云之声Be正式成立的上半年,语音技术公司的基础语音数据的积累已经由外包公司悄然进行。离线收集的这些宝贵的海量数据可以为模拟学习提供更多的样本。

云之声联合创始人兼首席执行官梁家恩将语音识别的过程描述为:“通过麦克风捕捉用户发出的声音,将声音信号转换成可由机器处理的‘发音特征’,然后通过组合语音词典和收集各种词汇排列和组合的语言模型,来比较和搜索最接近声音波形的句子。”简而言之,该机器可以自动将语音转换成准确的单词,而无需理解句子的意思。

移动信息化系列报道之五:智能语音登陆战

这是语音技术需要突破的第一个障碍。在中国,从事语音识别技术的企业家大致分为两个学校,一个来自清华大学,另一个来自中国科学院。梁嘉恩所在的中国科学院自动化研究所自20世纪80年代以来就致力于语音研究,几乎与清华大学同时起步。据一位业内人士写的文章称,中国从事语音技术的专业人士不超过100人。

梁嘉恩在大学阶段见证了“同门”iFlytek的崛起。在移动互联网爆发之前,iFlytek和JetSmart专注于语音合成,这是二战后广泛使用的一项技术,它允许机器阅读文本,但后来iFlytek专注于语音识别。

不怕HKUST的IFlytek和许多其他语音搜索对手,云之声很快凭借一项核心技术——深层神经网络——获得了一个立足点。该技术增强了在口音和噪声环境下的识别效果,识别错误率可降低30%以上。Esprit还利用深度神经网络技术来提高语音识别的性能,百度也在今年年初成立了深度神经研究所进行研发。

在梁嘉恩看来,语音识别的优势在于统计框架的完整性。"算法和框架在学术界是开放的,它们之间没有太大的区别."然而,在这种情况下,只有努力工作才能进一步提高。“使用相同的系统架构,在实验室环境中大声朗读很容易达到90%的识别率,但在大量用户和实际环境中仍然很难达到90%。”梁嘉恩告诉记者。

理解的混乱

梁佳恩说:“如果我们只有语音识别,我们最多只能聊天。”"有了语义理解,我们就可以与实际业务联系起来."

在语音行业的下游,语义分析可以是语音识别的中继。简而言之,语义分析就是对输入的句子进行分析,理解句子之间的逻辑关系,并根据逻辑关系构建用户所需的反馈结果。语义分析应用的经典形式是问答或对话——首先需要理解用户的输入,然后生成答案,或者生成需要用户补充的问题。

“用户填写垂直旅行搜索表格,自然语义分析直接为用户填写表格”,Mobvoi创始人李志飞打了个比方。语义分析将单词转换成标准化的表格,并通过使用开放的api数据支持垂直搜索。

李志飞毕业于约翰·霍普金斯大学语言和语音处理实验室。在获得红杉资本和正格基金的投资并决定在中国创业之前,他在谷歌研究院开发了谷歌翻译产品,他的博士研究方向是人工智能的一个分支——机器翻译领域。

李志飞指出,理解和识别声音所面临的技术问题是完全不同的。对于语音识别,最大的问题是噪音、不同场景中的环绕声、不同人使用的方言以及不断变化的声音信号。语义分析的难点在于,意义相同的句子有不同的词和词序,如中国南方航空公司空公司和中国南方航空公司上海和Modu。

国内语义分析专家、北京交通大学何忠雄先生研究过的虫洞ceo于告诉记者,语义分析有两条技术路线:一是规则库匹配,正则化后的语言匹配;二是通过机器学习和智能网络来训练算法。他说:“一个成熟的声音产品肯定会使用后者。”然而,在早期阶段,两者的结合经常被采用。

但是在同一个语义分析阶段,两个企业家选择以不同的方式接触用户。

早期位于实用函数搜索查询中的虫洞受siri启发,一系列原始函数以对话的交互方式串联在一起。余认为,查询信息是一个连贯的过程,需要不断的反馈和互动才能得到准确的信息,用户也希望在发言后得到人性化的回答。

李志飞让Mobvoi避开siri风格的对话“调情”场景,用户改变了声音,一次只能回答一个问题。他的理由是人们在交谈中会问很多问题,甚至会像自然人一样和机器聊天。“对话管理是下一个阶段。现在让我们来看看一个句子是什么意思——这是一项基本技能,”李志飞说。

刘伟说,从技术上讲,机器要理解人类语言,确实需要两个部分:语音到文本,文本到理解,但如果这两个环节分开处理,就很难真正理解自然语言。

对于风险投资家来说,声音市场的爆发取决于两种基本技术的共同成熟。刘伟认为,只有这样,我们才能从更高的层面,即人机对话系统层面,整合两种技术,通过多轮对话与用户反复交流,真正理解用户的自然语言,而不是简单的“语音听写”和“文本搜索”。

模式争议

对于一个技术密集型的语音行业来说,需要克服的不仅仅是技术问题,更具挑战性的是市场开发。

在siri让更多的人了解语音的面貌之前,一些先行者已经开始率先从行业应用中找到语音市场的“着陆点”。

教育也许是军事战略家的第一战场。

在自动化研究所的五年时间里,从事语音识别核心技术研究与开发的梁家恩和同事们共同开发了一套英语口语评价系统。

在欧亚大陆的另一边,由高士兴和剑桥大学的几位师生共同创办的Esprit也将海外汉语口语教育作为第一战场。一套完整的语音识别、合成和评估技术,加上高度的语言学习热情和时尚的资格考试,听起来相当默契和合乎逻辑的商业模式。

然而,Esprit的实践并不顺利。高士兴发现,在一个新生的市场中,关键不在于“技术有多好”,而在于“事实上,用户对技术的理解还有几个层次。”

2008年,分散且不可预测的中国口语市场让Esprit重返家园,重新选择英语口语评估作为起点,并开始了第二次创业。Esprit基于第二代智能语音分析和人机对话技术,在中国首次实现了对话和交流能力的评估,成为世界上第一家为英语口语测试提供完整机器评估的语音公司。

当Spirit为新东方等英语教育公司开发人机对话的口语学习系统时,梁加恩的评估系统被卖给了语音行业的龙头企业IFlytek。今年6月25日,HKUST讯飞以4.8亿元人民币的自有资本,以580%的收购溢价收购了广东祁鸣科技,后者也是一家口语测试系统提供商。

显然,竞争日益激烈的教育行业已经无法承担所有的落地任务。Esprit正悄悄将基于深层神经网络的语音识别和语音合成技术应用于车载系统等智能设备领域。"车内主要是基于语音交互."于还预测,车载导航和可穿戴设备将是语音行业的早期市场爆发点。虫洞选择与深圳乐图等相关公司合作开发语音。

所有上述储备似乎都预示着语音将登陆移动互联网。人们可以数出已经形成的四个移动互联网门户:应用市场、浏览器、应用和手机桌面,而语音是语音不断增长的门户的候选。

对于完全诞生在移动互联网时代的移动电话来说,很明显,先驱者的道路不需要太多的参考。自今年4月以来,为微信用户提供生活服务查询的移动电话公共账户迅速积累了10多万用户,成为微信官方推荐的十大应用之一,远远超过了1月初推出的安卓移动终端。

三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....

当前流行度:0

[娇娇]http://itougu.jrj/view/189514.j.....

当前流行度:0

1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??变得强大。.....

当前流行度:0

你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........

当前流行度:0

缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......

当前流行度:0

那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....

当前流行度:1

你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....

当前流行度:0

咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....

当前流行度:0

来源:彭博新闻网

标题:移动信息化系列报道之五:智能语音登陆战

地址:http://www.pks4.com/ptyxw/4802.html