「汪汪」to Vector!密歇根博士生用AI解码狗的声音 | LREC 2024

AIGC动态6个月前发布 AIera
702 0 0
「汪汪」to Vector!密歇根博士生用AI解码狗的声音 | LREC 2024

 

文章摘要


【关 键 词】 人工智能狗叫声品种识别声音分析交流理解

研究人员开发了一款人工智能工具,能够区分狗叫声的不同含义,并识别狗的年龄、性别和品种。该工具基于语音识别模型Wav2Vec2,通过收集74只不同品种、年龄和性别狗狗的叫声数据,进行微调训练。

研究人员在墨西哥收集了这些狗狗在各种刺激下的叫声,包括模拟攻击、亲切对话、玩耍等情景。数据处理过程中,将叫声片段分为不同类型,并使用与刺激相关的信息进行手动注释。

实验结果表明,AI模型能够有效区分单个狗的吠叫声,识别不同狗的品种,以及预测叫声所关联的场景。特别是在品种鉴别上,模型能识别出吉娃娃、法国贵宾犬和雪纳瑞犬等不同品种。在性别预测任务中,从头开始训练的模型表现更好,可能因为母狗在数据集中的持续时间较长。

这项研究的关键发现是,源自人类语音的声音和模式可以作为分析动物发声的基础。此外,研究还解决了动物交流方式的三个主要问题之一,即如何将声音单位映射到具体含义。这一进展不仅有助于我们更好地理解狗的交流方式,也为未来研究其他动物的发声提供了新的视角和方法。密歇根大学人工智能实验室主任Rada Mihalcea表示,人工智能将彻底改变我们对动物交流的理解,并指出我们对于共享这个世界的动物还有很多未知。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2550字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...