「汪汪」to Vector！密歇根博士生用AI解码狗的声音 | LREC 2024

AIGC动态2年前 (2024)发布 AIera

2,532 0 0

「汪汪」to Vector！密歇根博士生用AI解码狗的声音 | LREC 2024

文章摘要

研究人员开发了一款人工智能工具，能够区分狗叫声的不同含义，并识别狗的年龄、性别和品种。该工具基于语音识别模型Wav2Vec2，通过收集74只不同品种、年龄和性别狗狗的叫声数据，进行微调训练。

研究人员在墨西哥收集了这些狗狗在各种刺激下的叫声，包括模拟攻击、亲切对话、玩耍等情景。数据处理过程中，将叫声片段分为不同类型，并使用与刺激相关的信息进行手动注释。

实验结果表明，AI模型能够有效区分单个狗的吠叫声，识别不同狗的品种，以及预测叫声所关联的场景。特别是在品种鉴别上，模型能识别出吉娃娃、法国贵宾犬和雪纳瑞犬等不同品种。在性别预测任务中，从头开始训练的模型表现更好，可能因为母狗在数据集中的持续时间较长。

这项研究的关键发现是，源自人类语音的声音和模式可以作为分析动物发声的基础。此外，研究还解决了动物交流方式的三个主要问题之一，即如何将声音单位映射到具体含义。这一进展不仅有助于我们更好地理解狗的交流方式，也为未来研究其他动物的发声提供了新的视角和方法。密歇根大学人工智能实验室主任Rada Mihalcea表示，人工智能将彻底改变我们对动物交流的理解，并指出我们对于共享这个世界的动物还有很多未知。