确定 取消 应用
学术报告
学术报告

您的位置 : 首页  学术报告

关于微软亚洲研究院宋歌平、钱瑶、王丽娟等博士学术报告的通知

发布日期 :2014-11-03    阅读次数 :5702

报告主题:“跨语言的语音信号处理研究与多媒体和大数据应用的展望

Cross-lingual Speech Processing Research and Its Extension to Multi-Media, Big Data Applications

报告人:宋�平 Frank K. Soong

时间:11月6日   9:00—10:30

地点:行政楼108会议室

简介:

宋�平博士现任 2004 - )微软亚洲研究院,语音组的首席研究员与研究经理。台湾大学学士,美国罗德岛大学硕士与史坦福大学博士。曾在美国电报电话公司(AT&T/ 朗讯科技(Lucent Technology)之贝尔实验室声学语音研究中心,任研究员与杰出研究员(1982 2001)。日本电信电话公司(NTT)通信研究所访问研究员(1987 1988),日本国际通信研究所(Advanced Telecommunication Research, ATR)特聘研究员 (2002 2004).研究范围涵盖甚广,包括:语音建模,分析,编码,识别,合成,增强,最优解码器,说话人识别,统计模型,回声消除,多通道阵列声学信号处理,语音噪声分离等。编辑语音识别与说话人识别前沿研究(Automatic Speech and Speech Recognition- Advanced Topics Kluwer, NY.)常用参考书.在国际期刊和会议发表超过250篇论文。有超过30项国际专利。指导学生博士硕士论文,在2005 ICASSP 2007 ICASSP获最佳学生论文奖,2013 Interspeech 获最佳决选(10 finalist)学生论文。微软语音团队以高清说话人头(Photo-realistic talking head)参与2009 LIPS Challenge国际说话人头竞赛,获得“音视频一致“ audio/visual consistency)第一名。2010 Blizzard Challenge国际语音合成竞赛获中文普通话和英语大数据库之第一和第二名。带领微软研究团队进行“跨语言的语音翻译”研究计划(Speech-to-Speech Translation2012年十月在天津“21世纪计算研讨会”现场以音视频展示及时全自动英翻中即时口译,Youtube 国内视屏点击率已经超过百万次。以“语音信号处理的贡献”当选 IEEE 的院士 Fellow)荣誉。

报告内容概要:

本报告将语音信号处理的先端算法在语音识别和合成,说话人识别,语音转换等的应用,作一系统的概述,分析,回顾和展望。经典的统计建模和新发展的机器学习将为报告的重点。先介绍经典的高斯混合(GMMGaussian Mixture Model)统计模型和相关的训练法则:最大似然度和最小错误的区分性训练,再引出最新的深度学习的神经网络模型(DNNDeep Neural Net)和相关的最大后验概率的法则及优化方式。再对跨语言的研究领域,我们提出“不同语言中所共有的基本粒子”的探索,在微软研究(Microsoft Research)的“化不可能为可能”(ITI, Impossible Things Initiative)计划在不同语言之间(Speech-to-Speech Translation)的识别,翻译,与合成,介绍微软亚洲研究院的语音研究团队的种种发现。

语音的数字处理,建模,识别,合成,除了在语音领域有其统计算法的严谨性,大数据(Big Data)的并行及优化处理能力及平台,以及人机交互,语音搜索,计算机辅助的语言学习(Computer Assisted Language Learning),携带和穿戴式器件(mobile and wearable gadgets)无数可能应用外,它更开启了多媒体,多模态(Multi-Media and Modal)在图像,视频,音乐,各个领域的先端研究与产品的商机,其他在中国古典如艺术如书法,水墨的合成创作,以及文化创意产业皆有无穷的潜能与发展。

 

报告主题:深度学习与智能语言学习辅导系统

Deep Learning for Intelligent Language Tutoring System

报告人:钱瑶 Yao Qian

时间:11月6日  9:00—10:30

地点:行政楼108会议室

简介:

钱瑶现任微软亚洲研究院语音组的主管研究员。20059月加入微软亚洲研究院工作至今,主要从事智能信息处理方面的研究工作,包括计算机语音识别和合成,说话人自适应和转换,口语语言处理和智能语言学习辅导系统。最近的工作重点是深度学习及其在语音合成,说话人识别和智能辅导系统中的应用。在国际期刊和会议上发表学术论文 60多篇 (其中在国际SCI收录的杂志上以第一作者发表的有6篇), IEEE Senior Member, 工作期间申请美国专利11(已授权5项,从申请到授权周期至少是五年), 研究成果转移成产品6项,对微软的产品:办公即时通信系统,邮件服务系统,电话问讯系统,车载导航系统和必应搜索引擎作出了贡献, 并获得了Microsoft Research Technology Transfer Award (奖励前瞻性的研究成果对微软产品作出的重大贡献)2010年组队参加语音合成系统国际比赛,荣获大语料库合成语音质量可懂度第一和自然度第二。在2012微软技术节展示的研究成果: “跨语言的说话人转换Turn a Monolingual TTS into Mixed Language”被多家媒体报道,其中包括 MIT Technology review,并将此成果成功地应用于个性化的语音翻译系统 Personalized Speech to Speech Translation 20058月毕业于香港中文大学电子工程系,获博士学位。在博士学习期间获得2003年“微软学者”称号。

http://research.microsoft.com/en-us/people/yaoqian/

报告内容概要:

近年来,机器学习研究中的一个新的领域深度学习,极大地促进了口语语言处理技术,特别是使语音识别性能得到了突飞猛进。我们将这最前沿的技术拓展到智能辅导系统中,特别是用此来改进计算机辅助英语发音训练。本报告将先介绍深度学习基本原理,尤其是深层神经网络,接着展示在计算机辅助教育研究领域中两个技术的改进:1)如何用深层神经网络改进发音质量评价算法,以此来提高机器打分和语言专家打分的相关性。2)提出一个基于多任务学习或迁移学习的分类改进算法,以此来提高发音错误或缺陷的检测性能,并对语言学习者提供有用的反馈。最后会涉及到在部署云端英语发音训练服务中,如何压缩神经网络模型及提高运行速度来满足无处不在计算的需求。

 

报告主题:深度神经网络 人脸计算 会说话的3D头像

Deep Neural NetHuman Face Computing and Talking Head

报告人:王丽娟 Lijuan Wang

时间:11月6日  9:00—10:30

地点:行政楼108会议室

简介:

王丽娟(2006 - )微软亚洲研究院资深研究员(lead researcher)。华中科技大学学士,于清华大学电子工程系获硕士和博士学位。2006年加盟微软亚洲研究院语音组,期间发表国际期刊会议文章20余篇,美国专利10个,研究成果多次转化进入微软核心产品如windowsoffice,必应搜索等。IEEE资深会员。研究兴趣涉及机器学习,模式识别,语音合成,会说话的3D头像,手写文字识别等。

个人主页:http://research.microsoft.com/en-us/people/lijuanw/

报告内容概要:

被称为3D Photo-Realistic Talking Head的技术可以为用户生成虚拟3D头像,该3D头像可以读出输入的文本,而且口型与语音能够与原用户十分近似,以假乱真。该3D头像不仅可以读出原用户从未说过的母语,通过与跨语言的TTS语音合成技术结合,该3D头像甚至还能精准地说外语。

Talking Head的核心技术在于实现口型合成及语音合成,并将合成的语音与口型相互匹配,即可生成最终的虚拟影像。口型和语音合成的前提条件是数据库中包含了一种语言可能发出的各种音调和口型,即便是让Talking Head模型去说全新的一段话,只要借助数据库中预先录制的基本音素和口型,同样可以拼接出十分真实的语音和口型。本次报告中,我们将回顾用于基于隐式马尔可夫(Hidden Markov Model, HMM-based)的建模方法,也介绍我们首次提出的将深度神经网络(Deep Neural Net, DNN-based)用于口型建模合成的最新进展。