社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

AI「鸟口普查」,康奈尔大学利用深度学习分析北美林莺分布

CDA数据分析师 • 7 月前 • 104 次点击  

点击上方蓝字,关注我们!

By 超神经
据世界自然基金会统计,1970-2016 年,全球代表物种种群数量减少了 68%,生物多样性不断下降。
保护生物多样性,需要对当地生态情况进行准确分析,制定合理的生态保护政策。然而,生态数据太过庞杂,统计标准又难以统一,大规模的生态分析很难开展。
近期,康奈尔大学的研究者们利用深度学习,分析了 900 万组鸟类数据,得到了林莺在北美洲的分布数据,开启了生态数据分析的新篇章。
作者 | 雪菜
编辑 | 三羊、铁塔

据世界自然基金会 (WWF) 统计,1970 年至 2016 年,全球 4,392 个代表物种、20,811 个种群的平均数量降低了 68%,全球生物多样性正在下降。

图 1:1970-2016 年,全球 4,392 个代表物种、20,811 个种群的平均数量变化

保护生物多样性,需要对相关地区的物种分布进行准确的大规模分析。然而,由于数据量过于庞大,且缺乏统一的统计方法,研究者们暂无法准确统计特定区域的生物多样性(物种丰富度、种群数量等)和生物组成数据(在当地生态系统中某一个物种的地位)。
传统的物种丰富度统计,需要将不同物种的分布地图叠加,进行建模预测,或是直接通过宏观生态学模型进行预测。无论哪种方法,推断结果都会受到模型精度的影响,前者还会受到地图精度的影响。
而且,这种预测方法的时间分辨率很差,无法对物种分布的季节性变化作出准确判断,更无法对物种间的联系进行研究,不利于生态保护政策的制定。
深度学习为生物多样性的大规模时空研究提供了有效手段。美国康奈尔大学的研究者们结合深度推理网络 (DRN,  Deep Reasoning Network) 和深度多元 Probit 模型 (DMVP, Deep Multivariate Probit Model) 开发了 DMVP-DRNets 模型,从 9,206,241 组 eBird 数据中分析出了林莺 (Warbler) 在北美洲的时空分布,并对林莺与环境、其他物种之间的联系作出了推断。相关成果已发表于「Ecology」。

这一成果已发表于 「Ecology」

论文链接:
https://esajournals.onlinelibrary.wiley.com/doi/10.1002/ecy.4175
关注公众号,后台回复「林莺分布」获取论文完整 PDF

实验过程

数据集


eBird 与协变量


研究人员使用 2004 年 1 月 1 日至 2019 年 2 月 2 日, 170°-60° W,20°-60° N 之间的 eBird 数据作为本研究的数据集。排除重复数据后,共有 9,206,241 组 eBird 数据,每组 eBird 数据包括时间、日期、地点及观察到的所有鸟类物种。

图 2:一组银喉长尾山雀的 eBird 数据

研究人员还引入了 72 个协变量,包括 5 个与观察者相关的协变量,如活动状态、观察人数、观察时间等;3 个与时间相关的协变量,主要用于弥合不同时区之间的偏差;64 个与地形地貌相关的变量,如海拔、海岸线、岛屿等。

模型框架

解码器 + 潜在空间


本研究使用基于 DMVP 的 DRN 进行数据分析和预测。这一模型包含 3 层全连接 (fully-connected) 的网络解码器,用于分析输入特征的相关性,还有两个结构化潜在空间 (structured latent space) ,用以表示物种之间和物种-环境间的关联。

图 3:DMVP-DRNets 模型结果示意图

最终,DMVP-DRNets 模型通过一个可解释的潜在空间,输出 3 个生态相关的结果:
1、环境相关特征:反映了不同环境协变量之间的联系和相互作用;
2、物种相关特征:通过残差相关矩阵反映不同物种间的联系;
3、生物多样性相关特征:如某一物种的丰度和分布等。

模型评估

与 HLR-S 对比


将 DMVP-DRNets 模型投入大规模使用前,研究人员首先将其与基于空间高斯过程的 HLR-S 模型进行了对比。HLR-S 是生态学中研究多物种联合分布最常用的模型之一。
首先用 10,000 组 eBird 数据对两个模型进行训练。HLR-S 模型训练用时超过 24 小时,而 DMVP-DRNets 模型耗时不足 1 分钟。

表 1:DMVP-DRNets 模型和 HLR-S 模型性能对比

随后,对不同规模的 eBird 数据进行分析,DMVP-DRNets 模型在 11 个评价标准中优于 HLR-S 模型,仅在物种丰富度校准损失中落后于 HLR-S 模型。

实验结果

分布区域

阿巴拉契亚山脉


在对 eBird 的数据进行分析后,DMVP-DRNets 模型输出了空间分辨率为 2.9 km2 的北美林莺各月分布图。不同品种林莺在北美的分布动态性很强,每个月都有不同的分布热点。在对各月分布图进行叠加后,研究人员发现阿巴拉契亚山脉是林莺物种多样性最高的区域。

图 4:北美洲的林莺分布图

a:林莺在北美洲各地的最大物种丰富度分布
b:林莺在北美洲的主要分布区域

同时,研究人员还发现了不同迁徙期的林莺分布热点。在繁殖前迁徙期,林莺主要分布在俄亥俄州、西弗吉尼亚州和宾夕法尼亚州的阿巴拉契亚山脉附近。而在繁殖后,北阿巴拉契亚山脉是林莺分布最多的区域。

图 5:繁殖前迁徙期 (a) 和繁殖后迁徙期 (b) 的林莺分布

林莺-环境


水陆与季节偏好


进一步的,研究人员利用 DMVP-DRNets 模型对美国东北部的林莺-环境间的相互作用进行了分析。
首先,研究人员能够大致分辨出不同林莺对水生环境和陆地环境的偏好。随后,他们发现在繁殖期不同品种林莺对于环境的喜好不同。喜好水生环境的蓝翅黄森莺、北森莺和黄喉林莺在繁殖期栖息较近,而松林莺会和其他与松林相关的物种走得更近,如棕头鳾和红头啄木鸟。
随着季节的变化,不同林莺的分布也有变化。在繁殖后迁徙期,大多数林莺会抱团栖息,而棕榈林莺会选择在稍晚的秋天迁徙。松林莺和黄腰白喉林莺则会整年栖息在美国东北部。

图 6:繁殖期林莺与环境、其他物种之间的关联性

图 7:繁殖后迁徙期林莺与环境、其他物种之间的关联性

物种间关联

竞争与合作


在繁殖期、非繁殖期和迁徙期,林莺与其他物种之间展现出了不同的关系。
在繁殖期,林莺主要在防御自己的栖息地,与其他物种关联较弱。在栖息地相近且进攻性较强的品种之间,甚至是负关联,如黑枕威森莺和橙尾鸲莺。
在迁徙期,大多数林莺之间展现出了较强的正相关,与森林中的其他物种也有强关联性。这与观察的结果一致,林莺会与红眼绿鹃、黑冕山雀等其他物种组成混合迁徙队伍。
在此期间,林莺与巨翅鵟、条纹鹰、鸡鹰、赤肩鵟等捕食者关系较差,二者负相关系数较高。

图 8:繁殖期 (a) 和繁殖后迁徙期 (b) 林莺
与其他物种的相关系数

上述结果说明,DMVP-DRNets 模型可以对不同时期的林莺分布作出准确的判断,并能够推断出林莺与环境、其他物种之间的联系,为制定生态政策提供依据。

AI「鸟口普查」

除了数据分析,数据采集也是生态研究的重要部分。与植物不同,鸟类的警觉性很高,动作迅速,且有些品种个体较小,很难进行准确观测。
传统方法依赖长焦相机、高倍望远镜和静止摄像头从远距离对鸟类进行观测。这种方法虽然避免了对鸟类的干扰,但需要投入大量的人力物力,还需要观察者有相当的生态学、分类学知识。
通过深度神经网络,AI 可以进行高效的图像识别和声音识别,为鸟类观测提供了新方法。在鸟类主要活动地部署音视频记录设备,设备可以将记录到的数据上传到服务器,随后通过 AI 对这些数据进行分析,提取出音视频中的信息,最终得到鸟类在这一区域的分布。这一方法已被国家林业和草原局广泛应用于公园、湿地和生态保护区中。

图 9:部署在黄河三角洲的鸟类智慧监测系统

同时,AI 的这一技能还可以减轻科研人员的工作负担。AI 可以排除背景和噪音的干扰,专注于图像的特征,迅速解决生态学者难以做出判断的问题。比如下图中的照片,如果没有任何鸟类知识,很难从纷繁的羽毛中迅速判断出雏鸟的数量。

图 10:一窝雏鸟的照片,你能分辨出图中有多少只雏鸟吗

AI 正广泛应用于鸟类活动监测和鸟类分布分析中,自下而上搭建起鸟类研究的全系统,实现特定区域的「鸟口普查」。相信在 AI 的帮助下,我们能够对生态系统有更透彻的认识,制定出更加符合当地情况的生态政策,逐渐恢复地球的生物多样性,保护我们的地球家园。


了解更多数据分析知识、与更多优秀的人一起进群交流请扫码


群码过期或者群满请添加客服微信 CDAshujufenxi 后拉您进群
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/163119
 
104 次点击