内容简介
《声学事件检测理论与方法》系统地介绍声学事件检测的相关理论与方法,以及新研究进展。内容包括声学事件检测的基本原理、一般数据规模下的声学事件检测、大数据规模下的声学事件检测。在一般数据规模下的检测中,重点介绍基于长时特征的检测理论与方法,包括基于基频段特征的检测、基于混合模型的检测、基于稀疏低秩特征的检测,以及基于松弛边际与并行在线的模型训练方法。在大数据规模下的检测中,重点介绍适合大数据的快速和在线式模型训练方法,包括基于支持向量机的加速训练、基于深度模型的加速训练、通用型在线及随机梯度下降算法,以及牛顿型随机梯度下降算法等。最后介绍两个典型应用:行车周边声音环境的感知以及音频场景识别。
《声学事件检测理论与方法》可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的研究生教材,也可供该领域的科研及工程技术人员参考。
内页插图
目录
前言
第1章 绪论
1.1 声学事件检测技术的发展
1.1.1 声学事件检测的起源与发展脉络
1.1.2 基于特征的声学事件检测
1.1.3 基于模型的声学事件检测
1.2 声学事件检测技术的应用
1.3 声学事件检测系统的结构
1.4 本书的结构
第2章 声学事件检测中的常用特征和模型
2.1 声学事件检测中的常用特征
2.1.1 声音信号的数字化
2.1.2 声音信号的时域特征
2.1.3 声音信号的频域特征
2.1.4 声音信号的时频域特征
2.1.5 特征降维与选择
2.2 声学事件检测中的常用模型
2.2.1 浅层模型
2.2.2 深度模型
2.3 本章小结
第3章 基于基频段特征的声学事件检测
3.1 引言
3.2 长时特征提取
3.2.1 长时统计特征提取
3.2.2 基于基频段的特征提取
3.3 基于长时统计特征的声学事件检测
3.3.1 基于单分类器和多分类器融合的声学事件检测
3.3.2 基于类内细分聚类的声学事件检测
3.3.3 基于拒识和确认的声学事件检测
3.4 实验和结果
3.4.1 实验设置
3.4.2 实验结果与分析
3.5 本章小结
第4章 基于混合模型的声学事件检测
4.1 引言
4.2 伪高斯混合模型
4.2.1 伪高斯混合模型的构建
4.2.2 伪高斯混合模型参数估计的EM算法.
4.3 异质混合模型
4.3.1 多变量Logistic混合模型的可辨识性
4.3.2 异质混合模型的构建
4.3.3 异质混合模型的参数估计
4.4 实验和结果
4.4.1 基于伪高斯混合模型的声学事件检测
4.4.2 基于异质混合模型的声学事件检测
4.5 本章小结
第5章 基于稀疏低秩特征的声学事件检测
5.1 引言
5.2 基于稀疏表示特征的声学事件检测
5.3 基于低秩矩阵表示特征的声学事件检测
5.3.1 低秩矩阵表示特征提取
5.3.2 低秩矩阵分类的问题描述.
5.3.3 基于加速近似梯度方法的矩阵分类学习
5.4 基于低秩张量表示特征的声学事件检测
5.4.1 张量计算相关记号.
5.4.2 低秩张量表示特征提取
5.4.3 基于加速近似梯度方法的张量分类学习
5.5 实验和结果
5.5.1 基于稀疏表示特征的声学事件检测
5.5.2 基于低秩矩阵表示特征的声学事件检测
5.5.3 基于低秩张量表示特征的声学事件检测
5.6 本章小结
第6章 基于松弛边际下模型训练的声学事件检测
6.1 引言
6.2 基于迹范限制下的最大边际矩阵分类
6.2.1 基于迹范限制与松弛边际的矩阵分类问题描述
6.2.2 基于交替搜索方式的矩阵分类学习算法
6.3 基于迹范限制下的最大边际张量分类
6.3.1 基于迹范限制与松弛边际的张量分类问题描述
6.3.2 基于交替搜索方式的张量分类学习算法
6.4 实验和结果
6.5 本章小结
第7章 基于在线并行模型训练的声学事件检测
7.1 引言
7.2 在线并行的矩阵数据分类学习方法
7.2.1 基于加速近似梯度方法的矩阵分类在线学习
7.2.2 基于逼近加速近似梯度方法的在线学习
7.2.3 基于小批量更新的在线学习
7.2.4 基于并行计算加速的矩阵分类学习
7.3 在线并行的张量数据分类学习方法
7.4 实验和结果
7.4.1 基于在线并行学习的低秩矩阵特征分类
7.4.2 基于在线并行学习的低秩张量特征分类
7.5 本章小结
第8章 基于锚空间的声学事件检测
8.1 引言
8.2 锚模型简介
8.3 基于状态变化统计量的锚空间声学事件检测
8.3.1 基于状态变化统计量的锚空间生成方法
8.3.2 实验与讨论
8.4 基于高斯混合模型锚空间的声学事件检测
8.4.1 基于高斯混合模型锚空间的目标与集外锚模板的生成
8.4.2 基于高斯混合模型的声学事件检测机制
8.5 基于稀疏分解锚空间的声学事件检测
8.5.1 基于稀疏分解锚空间的目标与集外锚模板的生成
8.5.2 基于稀疏分解的声学事件检测机制
85.3 实验与讨论
8.6 本章小结
第9章 面向大数据环境下声学事件检测的凸优化理论
9.1 引言
9.2 与声学事件检测相关的凸优化理论
9.2.1 早期凸优化
9.2.2 凸优化基础
9.2.3 一阶方法的动机
9.3 光滑与非光滑的凸优化一阶方法
9.3.1 光滑目标
9.3.2 复合优化目标函数
9.3.3 近端目标
9.4 随机化技术
9.5 并行和分布式计算
9.6 本章小结
第10章 面向大数据处理的支持向量机模型的加速算法
10.1 随机对偶坐标上升法
10.1.1 问题描述及相关工作
10.1.2 基于对偶间隙边界的SDCA收敛性分析
10.2 加速近端随机对偶坐标上升法
10.2.1 问题描述及相关工作
10.2.2 基于对偶间隙边界的Prox-SDCA收敛性分析
10.3 本章小结
第11章 面向大数据处理的深度模型的加速算法
11.1 引言
11.2 全梯度与随机梯度下降算法
11.3 加速梯度算法
11.4 指数型收敛的随机梯度下降算法
11.4.1 随机平均梯度法.
11.4.2 随机方差减梯度方法
11.5 坐标梯度下降算法
11.6 本章小结
第12章 面向大数据的通用型在线及随机梯度下降算法
12.1 引言
12.2 通用在线梯度法
12.2.1 通用的在线原始梯度方法
12.2.2 通用的在线对偶梯度方法
12.2.3 通用的在线快速梯度方法
12.3 通用随机梯度法
12.3.1 算法描述
12.3.2 收敛性分析
12.4 数值实验
12.4.1 LASSO问题
12.4.2 施泰纳问题
12.5 本章小结
第13章 面向大数据的牛顿型随机梯度下降算法
13.1 引言
13.2 近端牛顿型随机梯度法
13.2.1 正则化的二次模型
13.2.2 Hessian矩阵的近似
13.3 算法的收敛性分析
13.4 数值实验
13.5 本章小结
第14章 基于声学事件检测的行车周边声音环境感知
14.1 引言
14.2 实验环境与基线系统
14.3 基于径向基函数神经网络噪声建模的声学事件检测
14.4 基于等响度曲线的声学事件检测
14.5 基于基频轨迹特征的声学事件检测
14.6 本章小结
第15章 音频场景识别
15.1 引言
15.2 基于高斯直方图特征的音频场景识别
15.2.1 高斯直方图特征
15.2.2 分类模型
15.3 基于迁移学习的音频场景识别
15.3.1 迁移学习概述
15.3.2 基于样本平衡化的音频场景识别
15.3.3 基于改进样本平衡化的音频场景识别
15.4 实验和结果
15.5 本章小结
参考文献
前言/序言
人类生活在一个充满声音的世界中,各种活动、事件无不伴随着丰富多彩的声音。对声音的感知与理解是人类认知世界的最重要途径之一。随着信息技术的迅猛发展,开展机器模仿人类对声音认知能力的相关研究越来越受到重视。
声音感知与理解的目标是使计算机能感知入耳听觉所能关注和理解的声音。声音的类型大体可分为语音和非语音,对不同的声音类型,所应采取的处理方法也不尽相同。有关语音感知与理解方面的研究已较为丰富,如语音识别、说话人识别等。近年来,针对非语音感知与理解的研究已逐渐成为学术界的研究热点。研究者普遍认为非语音的声音也能传递有用的信息,通过对这些声音的分析和处理,能够为智能决策提供重要的信息。非语音感知和理解的核心技术之一正是本书所要讨论的问题——声学事件检测。
声学事件检测是指对连续声音信号流中一段具有明确语义的片段进行分析,并标定其语义类别的过程。声学事件检测是机器对环境声音场景进行感知和语义理解的重要基础,其在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面将发挥重要的作用。
声学事件检测的研究经过十几年的发展已经取得了长足的进步。从其发展过程看,经历了从简单事件类型到复杂事件类型的检测,从孤立片段的事件检测到连续声音流中的事件检测,从实验室模拟的声学事件到现实生活中的声学事件检测的过程。多年来在语音识别和音乐处理方面的研究工作,为声学事件检测提供了数字信号处理与机器学习层面的技术积累;而机器的环境感知以及基于语义的多媒体信息检索对声学事件检测的强烈需求,牵引和驱动了声学事件检测的发展。近年来,数字信号处理与机器学习中,如稀疏表示与压缩感知、深度学习等方面的突破,为声学事件检测研究提供了更有效的理论方法和技术手段。
全书共15章,分别介绍声学事件检测中的特征提取和常用模型、一般数据规模下的声学事件检测、大数据规模下的声学事件检测,以及声学事件检测的典型应用。其目的不仅让读者对声学事件检测理论和方法有一个系统的了解,而且努力将本领域的新动态介绍给读者,希望读者能在学术思想上受到启发。
经典文学巨著:探寻人性的幽微与时代的洪流 《寂静的河流:一个时代的挽歌》 本书并非聚焦于技术性的探讨,而是深入文学的腹地,描绘了一个特定历史时期内,个体命运在宏大社会结构下的挣扎、选择与最终的沉寂。这是一部关于记忆、失落与身份重塑的长篇叙事,以细腻入微的笔触,勾勒出二十世纪中叶,一个偏远小镇上发生的关于爱、背叛与永恒追寻的故事。 第一部:初生的涟漪 故事始于一个被群山环抱,几乎与世隔绝的村落——青石镇。这里的节奏缓慢而古老,生活被季节的更替和传统的仪式严格限定。主角林远,一个充满理想主义色彩的年轻教师,带着从大城市学到的新思想回到故土。他试图用知识的火种点燃沉睡的心灵,却发现古老的习俗和根深蒂固的观念如同坚硬的岩石,难以撼动。 作者以近乎博物学的严谨,描绘了青石镇的社会生态:手工作坊的凋零、家族势力的微妙平衡、民间信仰与新思潮之间的暗流涌动。林远的生活围绕着他所教授的少数学生,以及他与本地望族之女苏婉之间的复杂关系展开。苏婉美丽而压抑,她的内心世界是传统束缚与自我觉醒的战场。他们的爱情,从最初的相互吸引,逐渐演变为对自由与体制的共同隐秘的渴望与试探。 本部分着重于“构建”——构建人物性格的初始维度,构建故事发生地的物理与精神图景。叙事节奏缓慢,充满对日常细节的捕捉,例如,清晨薄雾中弥漫的炊烟气味、夏日午后石板路上慵懒的猫、以及冬日里围坐在火塘边听老人讲述的那些半真半假的神话传说。这些看似无关紧要的描写,实则为后续的悲剧埋下了坚实的现实基础,使人物的行为逻辑具有无可辩驳的说服力。 第二部:时代的风暴眼 随着时代的列车加速驶入,青石镇也无法置身事外。政治运动的浪潮席卷而来,一切旧有的秩序和人与人之间的关系在顷刻间被重新定义。本书的叙事视角从侧重个体内心的挣扎,转向了外部压力如何撕裂个体内部的道德罗盘。 林远的理想主义受到了最残酷的检验。他必须在维护真理与保护所爱之人之间做出抉择。他目睹了曾经的挚友因恐惧而变得面目全非,也目睹了善良的邻人如何被无意的言语推向深渊。作者在这里展现了高超的心理刻画技巧,不直接评判对错,而是冷静地记录下人在极端压力下,人性光辉与卑微并存的复杂状态。 苏婉的命运则与家族的兴衰紧密相连。她被迫卷入权力斗争的漩涡,她的智慧和美貌不再是她个人的财富,而是被他人利用的筹码。她与林远的感情线索也因此中断、扭曲,从纯粹的爱情升华为一种共同承受痛苦的、近乎殉道式的同盟。 这一部分的高潮是“审判之夜”。通过多重视角切换,读者得以窥见事件发生时的混乱与恐惧。作者运用大量的内心独白和闪回片段,揭示了许多被历史尘封的真相。叙事技巧上,此处运用了非线性叙事,信息碎片被精心布局,引导读者自行拼凑出事件的全貌,增强了阅读过程中的智力参与感和情感冲击力。 第三部:遗落的印记与重生的土壤 风暴过后,留下了满目疮痍的景象。青石镇的人们开始小心翼翼地重建生活,但那场动荡留下的心理创伤,远比物质废墟更难以愈合。 第三部聚焦于“后遗症”。林远选择了沉默与隐忍,他不再是那个试图唤醒世界的青年,而是一个背负着沉重记忆的旁观者。他选择了一种与过去保持距离,却又无法完全割裂的生活方式。他开始关注那些被主流叙事遗忘的边缘人物——那些在风暴中失去了言语能力的幸存者,以及那些默默承担起家庭重担的女性。 苏婉最终选择了离开青石镇,她继承了家族的产业,却将其改造为一个旨在接纳和庇护那些“无家可归的灵魂”的机构。她的名字不再与爱情相关,而是与坚韧和慈悲联系在一起。 本书的结局是开放而充满诗意的。河流依然在流淌,但河床已经改变了形状。作者没有提供一个简单的主题总结,而是通过对时间流逝的描绘——例如,林远偶然间看到一个孩子在废弃的学校操场上玩耍的情景——暗示着生命的韧性与希望的微光。《寂静的河流》的价值,在于它对特定历史语境下复杂人性的深度挖掘,对个体尊严在权力面前的坚守与失守的深刻反思,以及对记忆如何塑造未来的哲学探讨。它是一曲对逝去时光的深情挽歌,同时也是一首关于如何在废墟上重建意义的赞美诗。 本书语言风格凝练,意象丰富,充满强烈的地域色彩和历史厚重感,是研究二十世纪中国社会变迁与人道主义文学思潮的不可多得的经典范本。它要求读者放慢脚步,用心去感受文字背后那份沉甸甸的、关于“人之所以为人”的永恒追问。