AuroraLab

实验室概况

AuroraLab隶属于清华大学电子工程系,直属于媒体大数据认知计算研究中心,以说话人识别(声纹识别)和标记、音频事件检测为研究重点,以连续语音识别、关键词检测、主题分类、知识图谱、情感识别、语种识别、音频索引和降噪增强等为研究对象,针对媒体感知智能、认知智能的理论、技术与方法展开研究。实验室发表论文和开源代码,请参考英文版本的Publications。

何亮

实验室负责人

副教授

徐灿

第一研究组 组长

梁天宇

第二研究组 组长

张贤炜

第三研究组 组长

研究方向

在何亮副教授带领下,实验室下设三个研究组: 第一研究组的研究方向是说话人标记、语音识别和语音主题分类等。组长是徐灿,组员包括李智轩、王昱婷、胡景和陈志文; 第二研究组的研究方向是说话人识别、说话人防伪检测、语种识别等。组长是梁天宇,组员包括马欣悦、孙浩铭; 第三研究组的研究方向是音频事件检测与分类等。组长是张贤炜,组员包括王耀光、叶瑞达。

第一研究组要解决的核心科学问题是:如何从语音流中提取序列信息,并依据序列信息构建知识库?典型任务包括:说话人标记、连续语音识别、关键词检测和语音主题分类等。说话人标记旨在判断语音中“谁在什么时候说话”,即在语音流中,将同一个说话人的语音打上相同的标签。连续语音识别是将语音转换成对应的文字。这两个任务的相通之处在于:均是将变长的语音序列映射成变长的字符序列。关键词检测和语音主题分类,是在变长字符序列基础上,采用类自然语言处理的方法,从字符序列中提取目标信息。
第二研究组要解决的核心科学问题是:如何从语音段中提取段级信息?典型任务包括:说话人识别、语种识别和语音防伪等。语音内容是语音承载的最显著信息。除去这个最显著的信息,语音还承载着说话人身份、语言种类和情绪健康等段级信息(基本或大多数情况)。提取段级信息有两个主要难点:1)如何抑制语音内容、信道传输和背景噪声等干扰;2)如何有效将语音各属性信息解耦?随着语音合成、语音转换等技术的日益进步,人造语音与自然语音的相似度越来越高。通过细微特征区分自然语音和人造语音,对反网络语音诈骗等具有重要应用意义。
第三研究组要解决的科学问题涵盖第一和第二研究组的科学问题,但研究对象由语音转变为音频。音频事件与音频场景是内涵广泛的两个概念。只要某段音频与产生该音频的人物、设备或场景等相关(例如,婴儿哭声、服务器运行声、银行营业厅等),我们就可称之为音频事件或音频场景。通过音频推断相关信息(婴儿是否在哭,服务器是否运行正常,银行营业厅是否有突发事件)的过程,即为音频事件检测或音频场景分类。该类问题的难点通常在于:1)音频事件复杂多样、差异巨大,如何有效建模?2)某些音频事件或场景出现概率极低,如何在缺少目标样本或目标样本数量极低的条件下建模;3)如何解耦相互重叠的音频事件;4)对音频事件的标注,往往没有语音识别标注那么精细,其属性的标注通常是音频片段级而没有对应时间戳。如何在弱监督条件进行音频事件检测?
三个研究组既有专攻,也有交叉。我们发现连续语音识别和说话人识别两类技术可以相互促进,共同提升识别准确率;说话人识别与音频场景分类在技术上有很多共通之处;说话人标记与音频事件检测也可以归结到相似的科学问题。目前,实验室主要以语音或音频为主要研究对象,侧重感知智能研究。在不断发展过程中,实验室的研究对象逐步转向多媒体,研究内容也由感知智能逐步外延到高层认知智能和底层信号处理。

2014

国家自然科学基金(青年)

基于信息几何的说话人标记方法研究

2015

国家自然科学基金(面上)、中国移动通信有限公司、华为公司

个人信息挖掘的价值制约机制和隐私保护策略、富媒体通信引入的新型多媒体不良信息过滤识别技术研究与应用、说话人标记技术开发项目

2016

淘宝(中国)公司

声纹识别技术开发

2017-今

公安部物证鉴定中心

刑侦领域的声纹鉴定和反电信诈骗

2018

国家自然科学基金(重点)

复杂环境下语音数据的说话人识别及关键词检索

2019

华为公司

智能语音评测及相关技术研究(声纹方向)

Copyright © 2019.AuroraLab All rights reserved.

京ICP备18058116号