本篇文章3412字,读完约9分钟
“一个汉堡多少钱?” iFlytek(002230)董事长刘庆峰问他手里的智能手机,但由于他的口音,他被认为是“一个汉堡多少钱?”。刘马上纠正了他的发音,又试了一遍,得到了一个满意的答案:"一个汉堡多少钱?" 这不是苹果的siri,而是HKUST讯飞的讯飞语言点。 3月22日17: 00,HKUST讯飞在新一代“语音云”会议上正式推出了这一典型应用。刘庆峰对发送短信、设置提醒、导航、查询航班、天气和食物以及推广讯飞语言点的一些功能感兴趣。 然而,刘烨在向美国科技公司的首席执行官展示产品时有意无意地犯了错误。当他很匆忙的时候,他会问“你能做什么?”说“你在做什么?” “我在反思自己的缺点。”荀飞的第一个回答非常谦虚。在刘纠正了这个问题之后,荀飞语点回答说:“我懂一些历史,会数数,会说几句英语,会背诵唐诗,会讲笑话……” 与以前的企业级产品不同,讯飞科技大学的新一代语音云应该尝试在移动互联网上运行。这是它的战略业务。讯飞语音云将向互联网开发商开放智能语音技术,为各类移动互联网企业家和创新企业提供低门槛语音技术服务。 “我们提供开发、运营和支持,包括高质量的语音体验、全过程开发技术支持、全天候运营和维护保障以及自动化业务分析。”在新闻发布会上,刘庆峰以水和电为例,HKUST讯飞的合作伙伴可以按需使用。 圈地运动第一 “科达讯飞的各种突破和技术排名不是主要的。更重要的是,他们已将技术转化为产品,并能预见利润。”HKUST讯飞股东、联想控股董事长刘传志认为,HKUST讯飞将实验室成果转化为工厂成果并推向市场,构建整个价值链,是最困难的一步。 目前,iFlytek的主要业务包括:语音支持软件,由于其进入行业较早,专业知识积累较深,具有一定的市场领先优势,例如在教育领域为竞争对手设置了进入壁垒。然而,其市场竞争也在加剧。 去年12月,全球最大的语音技术公司nuance和苹果siri技术提供商在上海展示了他们的中国汽车语音解决方案,并与NavInfo (002405)合作开发导航用的语音地图数据。与北美、欧洲和其他市场相比,nuance是中国增长最快的市场,意识到这一点后,它增加了在中国的投资,从几年前的几十人增加到100多人。 nuance去年增长最快的领域是手机和大众消费者,而大众消费正是IFlytek的“语音云”想要覆盖的。除了IFlytek的语言点,IFlytek的口头信息和IFlytek的输入法已经获得了良好的市场反馈。 “语音智能交互在全球市场上还处于起步和培训阶段,包括微软和谷歌在内,它们一般都没有找到好的盈利模式。”工业证券计算机行业资深分析师李英娟(601377)认为,“目前用户数量的增加比寻找盈利模式更现实,而语音云所涉及的互联网业务对科达讯飞来说意义重大,因为市场前景广阔。” 科达讯飞副总裁兼秘书徐景明认为,虽然语音云收费仍处于讨论阶段,但总体路线是明确的:“语音云的收费模式将是多样化的:高级用户授权收费模式、广告盈利模式、垂直搜索盈利模式和增值业务模式都是可行的。” 根据HKUST讯飞提供的数据,目前,HKUST讯飞占据了中国语音技术市场的70%以上,而语音合成产品的市场份额高达80%以上。 此外,其语音云用户规模已从2011年上半年的100万和2011年底的1000万增加到目前的3300万。每天,在线用户数量超过120万,请求总数超过700万,有3100多个应用程序开发伙伴。创新应用涉及手机、汽车、网络电视、智能家电等领域。 谁是应用门槛 刘庆峰说,他不怕微软和谷歌关于人机语音交互的声明:“我们准备好了:语音合成的自然度超过了真人的发音水平;语音识别率达到90%以上;自然的声音理解,典型的应用领域满足实际需求。” 刘还指出,语音应用爆发的条件已经逐步成熟,关键技术已经达到实用门槛。智能终端、无线网络、云计算平台等环境条件已经基本完备。然而,一位不愿透露姓名的管理软件研究所的资深人士告诉记者:“语音智能交互的重任仍在后端云计算平台上。” 后台技术的任务是处理用户通过前端发送的各种请求,并将最佳匹配结果返回给用户。然而,用户的请求多种多样,难以处理,涉及到以谷歌为代表的网络搜索技术、以wolfram alpha为代表的知识搜索和计算技术、以维基百科为代表的人工编辑知识库技术以及以yelp为代表的问答和推荐技术。 刘传志坦言,“语音学习系统的难点不是掌握算法,而是解决远程词汇需求。”要解决远程词汇问题,关键在于基于语料库的分析。 对智能语音技术的历史做出贡献的innovation works CEO李开复曾以他的相关博士论文为例:“当时语音技术是基于语料库的,语料库的巨大作用是很好的。一个人能记录的语料非常有限。然而,如果中国有1亿用户,即使每个人每天只说3秒钟,这也是一个相当大的数字。” “从3000万用户到1亿用户再到3亿用户,用户数量的增加将使语音云更加强大。”刘庆峰希望通过用户增长带来更丰富的语料库。“新一代语音云平台推出后,用户将对口音和特殊词汇进行个性化处理,从而进一步增强语音功能。” 但李开复也表示,“对用户体验的高期望将给语音交互技术的应用带来巨大挑战。声音是人类最自然的交流方式。一旦人们开始通过声音与机器交流,他们就会期望机器像真人一样。” 李还指出,对于IFlytek来说,花最短的时间让开发人员更快地参与进来尤为重要。此外,并非所有应用程序都适合语音交互。例如,创新工场投资的47个项目中,大约有五六个可能适合发声。 ”盖茨多年前说过,五年后声音将改变世界;但每五年,他都会重复一次。语音智能交互没有爆发,关键是云计算等技术还没有达到这个水平。”李开复认为,他将在新浪微博上为手机语音识别应用的发展提供四个机会。 首先,在准确性方面,讯飞平台可以通过使用大量的语料库和服务器做得很好;其次,语义比发音更难,不能用标准的api来解决;第三,选择真正需要声音的应用程序;最后,用户的体验和期望,结合语音语义和应用,可以做出高质量的应用。 业内人士加深了它的想象 ”讯飞语义理解技术已经在各大运营商中得到广泛应用。去年,iFlytek新建了安徽移动短信营业厅智能服务系统。同时,基于讯飞语义理解技术的面向呼叫的智能客户服务系统已在多家银行成功应用。”刘庆峰介绍道。 语音智能交互的企业级应用将更加深入。在科达讯飞“上一层楼”的新闻发布会上,一位女主人对着手机喊了密码,手机成功解锁;换成别人喊同样的密码,手机回应:“对不起,你不是我的主人。” 在类似的场景中,以及在“007”电影中,邦德对着他的车喊“启动”,车首先识别出车主的声音,然后启动启动命令。销售人员正在与客户通话,智能语音模块自动将通信信息输入客户关系管理系统进行归档,如何和在哪里打电话,客户的意见和要点等。 在类似的行业中有许多应用场景,可以想象是巨大的。“语音交互解放了双手,满足了快节奏工作和生活的需求。”上述管理软件公司研究院的高级官员表示,除了日常生活,智能语音交互将逐步应用到汽车、医疗、呼叫中心和管理软件等各个专业领域。 除了传统的合成业务,3月中旬,iFlytek宣布与中国联通(600050)在智能语音技术的研究和应用创新方面进行深度合作。根据协议,双方将重点在移动互联网、移动音乐业务、呼叫中心和客户服务领域开展合作,推动电子渠道的技术创新,通过智能语音技术提升汽车行业解决方案的竞争力。 “过去,银行和电信等呼叫中心使用语音合成服务,新的语义识别服务使HKUST讯飞在传统业务领域更具竞争力。”张颖娟对IFlytek的新业务前景持乐观态度。 张指出,nuance深度参与了医疗诊断记录的口述工作,但它之所以发展到现在的规模,是因为它上市较早,并获得了一些技术上的竞争对手,但却缺乏运营收入。Nuance刚刚以3亿美元的现金收购了医疗语音转录和编辑服务提供商transcend。不久前,nuance收购了语音识别公司vlingo和智能手机输入法swype。 “管理软件市场也将看到语音智能交互的使用,但肯定不是每个软件公司都会重新发明自己的siri。在企业市场上,将会有几家擅长语音智能交互并提供通用模块的制造商。”上述高层人士指出,其他软件厂商在开发新产品时,会结合自己的产品特点,增加语音智能交互的新功能,最终向客户展示完整的产品。