贾磊:你好,百度
作者:桑爱叶
贾磊:2000年毕业于系统工程专业,获硕士学位,现为百度在线网络技术(北京)有限公司语音首席架构师。
百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于2000年1月1日在中关村创建了百度公司。如今的百度,已成为中国最受欢迎、影响力最大的中文网站。百度拥有数千名研发工程师,这是中国乃至全球最为优秀的技术团队,这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。贾磊目前担任百度语音搜索部门的负责人,百度语音首席架构师。
贾磊于1993年保送进入西北工业大学教育改革班学习,大学学习期间他就对数学、计算机和声音信号处理技术产生了浓厚的兴趣。1997年他在本科毕业后,选择系统工程研究所攻读硕士学位,并被派往宝山钢铁公司从事轧钢机质量控制相关工作。硕士时期主要解决的技术问题是根据轧钢机的输入原材料的指标参数来预测轧制过后的钢锭质量,对可能出现的残次品进行提前排查,提高成品率。在宝山钢铁公司工作期间,贾磊就培养出对数学建模技术的浓厚的兴趣,最终在宝钢研究院各位研究员的帮助下,研发出利用BP神经网络和RBF神经网络进行轧钢机质量控制的技术,在实际产品中获得成功应用。硕士毕业后,贾磊考入中国科学院自动化研究所,攻读博士学位。选择的博士论文题目是广播语音识别。这项技术旨在通过语音识别技术,对广播电视新闻中的声音内容信息进行识别和挖掘,建立关键词索引,最终实现多媒体内容的轻松索引。该应用的核心技术环节包含音频分割,音频分类,说话人聚类,连续语音识别,说话人自适应,关键词检索技术等。贾磊在博士期间勤奋工作,对以上科研难题进行各个突破,全面掌握了以上语音技术的方方面面。最终在国内期刊,国外会议上发表多篇学术论文,并于2003年获得中科院博士学位。
2003年7月,贾磊加入松下中国研究开发有限公司,继续在工业界从事语音技术相关的研究工作。在2003.7年到2004.12期间,贾磊担任松下语音识别技术项目组Team Leader, 并和松下美国研究所一起,成功研发了手机上的英语、日语和汉语的人命数字拨号系统,该产品最终在松下手机上获得成功应用。
2005年期间,贾磊离开松下,加入IBM中国研究院,从事美国DARPA举办的汉语广播语音识别评测。在IBM工作期间,贾磊和IBM美国研究部门的同事一起,构建了汉语广播识别系统。该系统使用了当时世界上最先进的语音识别技术,能够对中国新闻节目中的语音内容进行实时高精度的识别,并可以再通过后端的文本分析技术实现新闻信息的翻译、理解和检索。最终该项目在美国DARPA的评比中,获得技术第一的好成绩。
2006年初,贾磊又回到松下中国研究开发有限公司,并担任松下整个语音技术部的高级经理(GM),承担整合松下内部语音技术的工作,并领导松下中国部门,成功研发了日语汽车导航系统产品原型。除此之外,还领导了松下内部的语音合成技术和音频处理技术的发展,完成了基于大语料库拼接的语音合成技术和用于安防的麦克风环形阵列鲁棒收音技术。
2010年6月,贾磊回到中科院自动化研究所,被授予副高级别职称。在研究员的领导下,主导了中科院自动化所的第一版本的云计算条件下的机器翻译系统构建工作。最终完成了云计算条件下的基于层次短语的机器翻译系统,该系统能够把一句话的翻译过程,在多台计算机上并行展开,可以快速高效的搜索更大的目标语音空间,从而提高了翻译的句子的精度。2011年,中科院自动化所申请到863重大项目(互联网语言翻译系统研制),贾磊也作为项目组主要成员之一,参与该项目的后续实施过程。
2011年6月,贾磊加入百度,担任百度语音技术部负责人,首席研究员,负责百度语音技术的核心技术研发和互联网产业化工作。首先承担的任务就是百度语音搜索核心技术的研发工作。当时,百度公司没有任何语音搜索系统的核心技术。只是依靠外部合作单位提供的API函数建立了一些很粗糙的语音搜索系统(百度并不拥有该系统的源代码),该系统的语音搜索的精度远远比不上当时的谷歌公司在中国大陆提供的汉语语音搜索服务。面对百度公司技术落后的现状和语音人才匮乏的窘境,贾磊亲自上阵,带领两名员工,开始进行独立语音搜索技术的研发之路。相对于普通的语音交互技术而言,语音搜索技术更强调后台信息的快速更新性。这就客观上要求语音识别技术的语言模型能够根据用户搜索query的改变而快速更新。传统的语音识别技术的语言模型都是预先训练好的,语音识别解码过程的解码空间也是根据语言模型确定的。语言模型的动态频繁更新一般都是不允许的。根据语音搜索的实际客观要求。贾磊领导团队创新出动态WFST解码技术。该技术能够把语音搜索任务中的语音识别系统的语言层信息和声学层信息的耦合被分解开来。语言层信息更新的时候只是快速更新语言层的WFST, 而不需要改变任何声学层的解码网络。这种构架使得普通的语音识别技术应用于语音搜索的时候,既做到快速识别出内容,也做到识别系统的语言学信息小时级别的快速实时更新。除此之外,该技术还允许语音识别系统采用上百G的语言模型。这些技术合在一起,大幅度提高语音搜索系统的识别准确率和追踪网络热词的响应速度。从而实现百度语音搜索技术的完全超越谷歌中国的语音搜索技术。该核心技术的独立研发过程从2011年8月开始,到2012年2月初的百度完全自主研发的语音搜索系统上线结束,只用了不到6个月的时间,是百度工程师狼性工作的最经典写照。目前该语音搜索系统每天服务千百万的中国广大搜索用户,成为语音技术产业化的最成功经典案例。
在完成语音搜索系统的研发后,贾磊又领导团队。着手研发手机上的语音输入法系统。相对于语音搜索系统而言,语音输入法系统建立的难题是如何获得用户日常生活对话语料来来训练输入法的语言模型。众所周知,用户日常生活对话语料是用户属于用户隐私的个人材料,是不可能被轻易获得的。因此,贾磊组织百度公司的核心自然语音处理团队,对互联网上的语料进行详细的分析和深入挖掘,最终挑选出一些类似用户日常对话的口语语料作为输入法语言模型的训练语料,来训练语言模型。最终,历时2个月,2012年6月该语音输入法系统被成功推上产品线。目前,每天用户数目上千万,语音识别系统的准确率和识别速度都达到国内领先水平,产品获得用户的一致好评。
2012年年底,在完成语音搜索和语音输入法产品后,贾磊又领导团队,研发了类似苹果siri系统的智能语音手机助手系统。该系统能够直接对用户的语音问题提供语音识别、命令解析、对话应答和智能搜索答案等服务。使用该助手,人们可以直接使用语音操作手机交互界面,完全革新人机交互。该系统被成功应用于百度以及各大手机厂商的产品中。除此之外,诸如三星等国际知名手机终端厂商也采用百度的语音助手作为自己的穿戴式设备解决方案。目前,越来越多的手机厂商,由于考虑到百度既有语音技术的优势,又有资源的优势,逐渐的越来越多的采用百度语音助手作为智能手机上的人机交互界面。
在2013年10月,百度宣布了对外开放语音识别技术。2014年4月末,百度宣布了对外开放语音合成技术。这些技术都会占用百度的资源和带宽,无偿提供给中国的所有开发者免费使用。已经有类似中国国际航空公司,陌陌等大量的厂商接入使用百度语音技术开放平台的语音技术。上百家中小开发者也会陆续接入百度的开放语音技术平台,享受到免费的语音服务,这是百度实现技术报国的实际举措。而语音技术开放平台的背后,正是贾磊领导其团队辛苦劳动的工作成果。未来贾磊将继续领导团队,为语音技术的全社会免费使用贡献自己的力量,继续长期为中国社会的广大人民提供给可靠、稳定和高质量的语音服务。目前,百度语音开放技术平台能提供广泛的免费语音技术服务给中国社会的开发者,为中国社会的现代化贡献了自己的力量。
2014-2015年, 贾磊领导团队在多项技术上获得多项突破:说话人声纹认证系统把声纹认证的错误率降低1%一下,并即将登录百度核心产品移动搜索框。音乐录歌搜索登录百度音乐APP,准确率超越多有竞品。音频信息恐暴过滤系统登录百度云平台。每天过滤大量的涉黄涉恐暴音频,为百度UGC服务的安全性和稳定性做出巨大的贡献。这些技术合在一起,形成百度音频技术的核心竞争力。
(原文转自中国文明网,文章版权归原作者及原出处所有。内容为作者个人观点,不用于任何商业目的,如有纰漏,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容,本站拥有对此声明的最终解释权)