“神州北极”开启“冰爽”模式找北找冷正当时

中新网漠河12月18日电(王景阳 记者姜辉)“北国好风光,尽在黑龙江”。12月是“神州北极”黑龙江省大兴安岭漠河市冬季里最“冰爽”的时节,最低温度已突破零下40摄氏度,吸引了大批南方游客前来找北找冷,挑战极寒低温,感受最纯、最美的冬季美景。

美国哲学家乔姆斯基将语言的结构分为「深层结构」和「表层结构」两种结构。语言按一定的短语规则和句子规则生成深层结构 (语义介入),而深层结构经转换规则处理后变成表层结构 (语音介入),于是转换为了人类看得见听得懂的话语。

Ps:结果文件建议使用 UTF-8(BOM)编码~

混合深层结构语音识别结果对比

此外,该模型除了可以使用 DBN 识别特征、分类数据之外,它还可以被用来生成数据。

5 大类语音分类详情

DBN 的组成元件是受限玻尔兹曼机(RBM)

在语音识别中,通常我们根据不同识别侧重点,将任务细化为不同类别,如:音乐流派识别、说话者识别、说话者性别分类、语音种类分类等,从而提高语音识别的准确率。

在本次 AI 研习社(https://god.yanxishe.com/ )推出的挑战赛中,我们选取了语音种类分类中的「50 种环境声音分类」主题。

本次大赛依旧提供了基础奖金池为 3000 元,共设置了三种奖项,包括:参与奖(30%)、突破奖(20%)、排名奖(50%);以上三种奖项均互不冲突,只要你足够秀,全部拿走也是没问题的!

从这一角度来看,CNN 可以视为将整个语音信号分析得到的时频谱,当作一张图像来处理,然后再采用图像中广泛应用的深层卷积网络对其进行识别。

这一结构往往更加复杂,但最终取得的效果也更佳。曾有一些研究者在迁移学习的基础上,将深度学习和机械学习相结合、并可在前端嵌入式实现的算法,使得最终环境声音识别准确率达到 88%(比此前全球最佳算法提高了近 2 个百分点)。

生成深层结构的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任网络(Deep Belief Networks,DBN)。它由多层神经元构成,通过一层一层训练其神经元间的权重,可以让整个神经网络按照最大概率来生成训练数据。

整个比赛的评审完全透明化,我们将会对比选手提交的 csv 文件,确认正确分辨图片数据,并按照如下公式计算得分,其中:

例如:使用连续受限玻尔兹曼机(continuous restricted Boltzmann machine,CRBM)代替 RBM 对连续数据建模;将传统 CNN 与贪心逐层无监督学习算法结合从而提高有标签数据稀少时特征提取器的训练性能;用预训练算法(CD 算法)提高 RBM 的训练效率;或是采用全局优化算法解决深层神经网络模型中收敛速度慢、易于过拟合等问题。

最终提交结果文件如下所示,其中,第一个字段位:测试集 ID(注意 ID 即文件名是从 0 开始的);第二个字段:类别-数字 [0,49]。

游客游览北极村。王景阳 摄

根据深层神经网络的构造方式、训练方法等因素,我们将深度学习分为了 3 大类别:生成深层结构、判别深层结构以及混合深层结构。

在目前大多数语音识别应用中,深度学习是较为常见的一种方法。它通过模仿人脑结构,建立起了一个深层神经网络;通过输入层输入数据,由低到高逐层提取特征,建立起低级特征到高级语义之间复杂的映射关系。

游客体验泼水成冰。王景阳 摄

雷锋网 AI 源创评论 雷锋网

而生成深层结构则是使得机器能够通过学习观测数据高阶相关性,或观测数据和关联类别之间的统计特征分布来实现模式分类,从而转换为机器可以识别语言的一类深层结构。

雷锋网原创文章,。详情见转载须知。

其中数据集详细文件格式如下所示:

海南游客乔巴开心地说,来到漠河北极村,最大的感受就是祖国幅员辽阔,温差从海南的零上十几摄氏度到漠河的零下三十几摄氏度,相差40多摄氏度。“这里冰雪连天的美景很震撼、很漂亮,感觉来一次北极村此生就无憾了”。

目前在语音识别方向,deep cnn 算是其中较为热门的方向,这和 CNN 的三个重要的思想架构,包括:局部区域感知、权重共享、空间或时间上的采样有着极强的关联。

漠河市是中国最北边的城市,也是中国纬度最高、气温最低的城市,所辖5A级景区北极村是中国唯一可观赏到北极光和极昼现象的地方。今年冬季,漠河市依托气温低、雪期长、雪质优的独特优势,在北极村景区打造了规模庞大的冰雕雪塑群和冰雪娱乐项目。为全面打响北极村冰雪旅游品牌,推动冰雪旅游、冰雪文化、冰雪体育和冰雪教育等各项冰雪产业深度融合发展,从12月7日开始,北极村每晚都会举办篝火晚会、扭大秧歌等游客可参与的活动。(完)

True:模型分类正确数量 Total :测试集样本总数量

当然没问题!这不,难度再次升级的「50 种环境声音分类」的语音识别挑战赛,来了!

游客与雪雕拍照。王景阳 摄

判别深层结构是通过直接学习不同类别之间的区分表达能力来实现模式分类的一类深层结构。其代表模型是卷积神经网络(Convolutional Neural Network,CNN)。

18日,在漠河市北极村景区里,极寒和极北在这里完美结合,彰显了冰雪艺术的无穷魅力,一幅幅冰雪画卷完美呈现在游人眼前:神州北极广场上,两座高15米、长100余米的巨龙雪雕气势恢宏、惟妙惟肖,给人以强烈的视觉震撼和心灵冲击;七星广场上,冰雪旅馆和民宿雪屋里的所有设施都是用冰雪精制而成,在暖色灯光的衬托下,充满了温馨和浪漫;北极洲里,30多个形态各异的雪人憨态可掬,成为游客最喜欢的网红打卡点。除此之外,北极村的大街小巷里还布满了极具地域特色的“迎新春”“福迎门”“迎宾牛”等26座融入乡村传统文化和自然风貌的大型雪雕,全面展示了北极人民欢喜迎春、和谐祥瑞的幸福生活和独具特色的民俗冰雪文化。

50 种环境声音分类

我们知道在通常情况下,语音识别都是基于时频分析后的语音谱完成的,而其中语音时频谱则具有较强的结构特点。而卷积神经网络恰好提供了在时间和空间上的平移不变性卷积,将这一思想应用到语音识别的声学建模中,则可以很好的克服语音信号本身的多样性。

混合深层结构是将上述生成深层模型和判别生成模式相结合而成的一类深层结构。在大部分混合深层模型训练中,生成单元首先将模型参数初始化为近似最优解,再使用判别单元全局微调,从而解决高度复杂问题的建模与推广问题。

从而实现对输入的复杂数据的高效处理,使机器可以像人一样智能地学习不同的知识,并且有效地解决多类复杂的智能问题;例如:语音识别、图像视频识别、语言处理和信息检索等领域。

本次比赛需要选手准确识别 5 种大类,共计 50 种小类的音频,每个音频文件时长 5 秒,格式为 wav。数据集来自 freesound.org 公开项目,从中手动提取,训练集共计 1600 个,测试集 400 个。

游客在北极村合影。王景阳 摄

(答案示例图片使用 Notepad++打开)

每日 24:00,我们也会将最新结果更新在官网排行榜上,你可以随时随地查看自己的排名情况。