下面是小编为大家整理的学习管理区对特定地点施氮潜影响:以小麦作物为例【完整版】,供大家参考。
学习管理区对特定地点 施氮 的潜在影响:以小麦作物为例
抽象 本文提出了一种用于精准农业的自动机器学习方法,旨在学习管理区域,以实现更高效和可持续地利用肥料。具体而言,该方法包括对遥感数据进行聚类,并根据提取的知识估计决策的影响。根据来自接受特定地点施肥的冬小麦(小麦)作物的实验数据开发了 一个 案例研究。对数据的第一次近似可以测量施肥处理对作物产量和质量的影响。在验证了这种效应的重要性后,对植被和土壤电导率的传感器读数进行聚类分析,以自动了解区分处理区域的最佳配置。在丹麦的两个实验地点验证了从植被和土壤传感中识别管理区域的完整方法,估计了其对特定地点 氮 肥决策的潜在影响。
关键字:
无监督学习; 可解释的机器学习; 遥感; 精准农业; 管理区域 1. 引言 精准农业寻求从各种类型的传感信息中提取相关知识,以便实施针对特定地点的处理,以实现作物的高效和可持续管理。这种知识应能提高生产者在现有做法和环境方面的预期利益。通过这种方式,传感器可以收集数据,持续监测现场状况,并基于机器学习技术,将可用信息转化为相关知识,用于智能决策。
遵循精准农业的观点,通过选择适当的管理区域进行特定地点的处理,可以进一步改善农田的管理,以实现更大的收益或节省。从这个意义上说,本研究旨在测试通过基于实验性局部传感器读数的现场 学习 子区域,是否可以将预期的施肥成本降至最低,同时确保在统一方法下获得的(收获后)产量和质量水平。因此,应该注意的是,该应用并不涉及田地的最佳施肥,而是旨在展示土壤和植被局部传感器如何帮助施肥决策过程。因此,它允许了解作物发展并建立一个考虑土壤和植被实时信息的未来决策支持系统。
在这种设置下,管理区被理解为一组 地块 或地块,它们是用于测试四种不同的 氮 肥处理的实验单位(包括从现在开始的一剂 50 千克 N /公顷,或重复剂量高达 150,200 和 300 千克/公顷)对冬小麦( 小麦 )的产量和蛋白质含量。)作物。现有数据是从丹麦 Kalundborg 和 Bjerringbro 的实验地点收集的。
在第一种数据方法中,给定初始(实验)宗地配置,估计受精处理的效果。然后,在通过无监督机器学习技术学习管理区域的新配置后,通过比较统一应用的预期收益来估计其影响,测试是否可以在不负面影响谷物生产质量和数量的情况下实现更可持续的资源利用。
修订了有关精准农业学习管理区的现有文献,已经有相当多的研究与土壤和地形特性引起的宗地聚类有关,以优化产量[1]。关于这个问题,测试了二次判别和 k-最近邻分析(再次参见[1]),这些是(监督)分类技术,检查了两种此类描绘程序的有效性,以从特定站点属性中识别屈服时间模式。也就是说,了解该领域的属性(如在任何监督学习任务中一样),验证了产量和站点属性之间的关系,为开发无监督方法(如我们)的研究的相关性提供了证据,以了解该领域的(次)最佳配置。这些研究应能使生产者获得更大的收益。此外,应该注意的是,我们的建议不仅考虑了产量,还考虑了质量参数,例如蛋白质的百分比。
考虑到不同的应用,已经为区域映射应用开发了一个决策工具[2],同时估计了管理区域的最佳数量。这种工具利用用户提供的卫星图像和实地数据,根据土壤有机质和养分的自然变化来了解区域,报告其区域图与传统方法产生的非常相似。应该指出的是,我们的方法更多地涉及微观视角,其中(植被和土壤)传感器读数是主要输入,是可以实施的最基本的系统,可用于试图实施精准农业的田间。
地理数据的另一个应用[3],作者强调了精准农业的挑战与机器学习问题之间的紧密联系。与我们的方法更相关的是,已经提出了一个基于集群的应用程序[4]来识别管理区域(用于棉花生产),重点关注产量和田间特性以及空间信息。这项工作仅使用一种聚类方法 K-means,该方法在空间上连续的区域内实现(另见[5])。由于这项工作还涉及确定管理区域的最佳数量,因此应该注意的是,我们的方法不会强加地理邻接,因为我们的主要重点是通过基于传感器的机器学习技术自动实现该方法。
因此,我们探索了不同类型的聚类方法(分层聚合和迭代)以及相应的 停止 条件,这些标准允许评估分区在其统计属性方面的表现。经过纯计算分析,考虑小麦试验田的案例研究,验证了结果。
从这个意义上说,我们的方法解决了自动识别要被视为作物特定地点管理区域的区域。此外,我们的方法建立在通过聚类分析优化所得分区的基础上,并且根据施肥成本的预期节省进行了验证。
在这一研究领域,基于遥感信息、植被、土壤和产量属性,应用模糊 K 均值来最小化谷类(小麦)作物的变异性[6]。结果表明,在不同区域的拟议规格下,作物养分、小麦光谱参数和产量的方差可以降低。由于他们的重点主要集中在(卫星)遥感的使用上,我们的方法仅涉及土壤和植被局部传感器。我们承认这种(传感器)信息可以与其他信息源一起使用,包括遥感以及产量和作物养分(质量参数)的观测或历史测量,但为了开发第一个 局部精度系统 ,我们只关注 基于传感器 的管理区域,然后验证其对产量和质量的影响。
最重要的是,我们强调我们的研究详细研究了聚类分析,从统计角度研究了解决方案的稳健性。因此,我们根据一组关键信息指标,对所得分区的统计性能进行了优化,与所提管理区域相对应,并根据施肥的预期节约情况验证了结果。此外,我们提出了分区对之间的 异议度 ,这使我们能够衡量任何两个区域配置在集群组成方面的差异程度。
为此,本文的组织结构如下。首先,解释了收集和分析实验数据的设置,以及学习管理区域的方法。然后,在第 3 节中,用实验作物数据呈现结果并说明。在第 4 节中,验证了该方法并讨论了结果,评估了其对生产者预期收益/节省的影响。最后的 的第 第 5 部分以一些结论和评论结束,以供将来的研究。
第 第 2 章 调查手法 2.1. 传感器数据和产量和质量的实验测量
2017 年,在丹麦的 Kalundborg 和 Bjerringbro 使用了两个不同的实验田来研究场地特异性剂量对小麦作物产量和蛋白质属性的影响。每个油田被随机划分为固定数量的 宗地 ,Kalundborg 为 108 个,Bjerringbro 为 52 个,因此每个宗地的特定剂量水平为 50,150,200 和 300 kg / ha。因此,根据包裹收到的剂量(公斤/公顷)有四个初始分组。每个地块为 30×6 米,每个地块或包裹都被收获并完全称重。
对于每个地块,通过电原位传感器收集数据,通过植被和土壤电导率测量作物的固有特性。植被由 N 传感器测量,它提供了近似的作物状态。N 传感器扫描 50 m 2 /s 并测量 450 至 900 nm 范围内的光反射率。N 传感器还具有一个向上传感器,可在与向下传感器相同的波长范围内测量辐照度。传感器的数据输出与算法结合使用,以提供相对生物质图和 N 速率图。有关所用特定波长和算法的信息不公开。在当前的研究中,我们使用每个图的相对生物量值作为模型的输入。N 传感器读数是按图进行的,值从 1.6 到 16.9,在表 表 1 中被称为“YARA 生物质读数”。
表 表 1.按地区和处理方式划分的每月 YARA 生物量读数(YBR)。
另一方面,土壤电导率是通过 DualEM 仪器测量的,这些仪器同时探索土壤的不同深度。对于植被测量,在 2017 年 3 月至 6 月期间(每月一次)进行了四种不同的读数,对于土壤读数,考虑了四种不同的深度,分别为 30,60,90 和 180 cm。
此外,还对田间谷物的干物质产量和蛋白质进行了收获后测量。干物质收率为 85%,采用燃烧法测定蛋白质,得到总氮并将其转化为蛋白质。通过这种方式,所有样品通过 1 毫米筛子研磨并储存在小玻璃瓶(5.5 厘米×2.5 厘米,高度×直径)中,然后随后测量 N 浓度。使用元素分析仪(德国 Vario EL III)测量地面样品中的氮浓度,随后通过将干物质乘以 N 浓度来计算以kg/ha 为单位的 N 含量。
2.2. 评估治疗效果
根据管理区域的配置对宗地进行特定的分组,需要推断化肥用量是否对生产的数量和质量有显著影响。然后,在验证因子治疗的重要性后,可以估计不同施肥策略可能对剂量节省的影响。
首先,通过方差分析,根据其对作物产量和蛋白质的影响,探索初始剂量处理,即根据 y ij =μ+τ i +ε ij ,
(1) 哪里 y ij 是响应变量,在本例中为每次处理 i 和包裹 j 观察到的产量或蛋白质生产水平。这里 μ 是所有包裹的平均产量或平均蛋白质水平, τ i 代表第 i(剂量)治疗效果,以及 ε ij 是随机误差分量,假设它具有均值和恒定方差的正态分布(有关详细信息,请参阅 [7])。
然后,在平均产量和蛋白质水平的剂量处理上开发了一系列成对比较(如 Tukey [8]),确定它们之间的显着差异(同时控制拒绝原假设的风险,而实际上它不应该被拒绝)。通过这种方式,可以在初始实验环境中选择最佳处理,从而最大限度地减少肥料的使用,同时达到相同的平均产量或蛋白质水平。
关于遵循不同施肥策略(指统一或特定地点的策略)的影响,可以通过比较在一种环境(例如,实验配置)或另一种环境(例如,根据丹麦冬小麦规范的均匀剂量)下使用的肥料量来粗略估计施肥剂量的潜在节省。请记住,此估计假设实施了不同策略的字段的等效条件。
此外,如果我们采用丹麦的冬小麦标准[9],统一施肥将通过以下方式给出 N ∗ =224 kg/ha 在卡伦堡(由于其被归类为粘土 类型的土壤)和 N ∗ =212 Kg/ha at Bjerringbro(一种 沙质粘土 类型的土壤)。因此,可以说,如果不同的环境允许在使用较少肥料的同时实现令人满意的产量和质量平均水平,那么这将需要更大的节约和更高的潜在净效益。
除了实验设置之外,我们还想探索通过学习 管理区域 的不同配置,是否有可能节省施肥成本。我们在下一节 节 2.3 中研究的方法将涉及建造新的管理区以优化作物的性能,并将根据统一策略进行验证。然后,如果我们根据每个区域的需求应用特定地点的量,则可以评估其对决策的影响,从而可以节省多少受精投入。
通过这种方式,我们采用每个(新)区域的平均剂量,在属于该区域的所有包裹上进行计算,并测量与统一标准处理的差异,检查是否可以在确保所需产量和质量水平的同时实现潜在的节省。
在这里,平均预期施肥节省 F s 由 F s =1K∑ g=1K N ∗ −N g ,
(2) 其中 K 代表区域数, N ∗ 代表根据丹麦冬小麦规范,每个包裹收到的(统一)金额,以及 N g 代表适用于属于同一区域的所有宗地的平均剂量。
接下来,我们介绍学习管理区域的方法。将开发聚类分析,旨在回答有多少聚类允许获得 良好 分区的问题。
2.3. 通过聚类分析的学习管理区域
通过聚类技术将机器学习方法应用于农业宗地的特征属性,包括土壤和植被状态的传感器数据读数。分析中包含的技术是分层聚类(通过前向聚集)和迭代 K 均值、K-medoids 和模糊 K-均值。正如将要讨论的,每种方法都有不同的构造原理,这些原理允许获取异构分区以找到具有最佳统计属性的分区。
通常,聚类技术允许根据对宗地之间 相似性的 评估来搜索数据中的特定结构。在这里,用于构建集群(被视为管理区域)的数据包括四个植被读数(在 2017 年 3 月至 5 月的不同时间点拍摄)和四个土壤条件读数(在不同深度拍摄)。因此,通过应用不同的技术并学习宗地之间的最佳分区,可以正确识别更能表征宗地的聚类或区域。
2.3.1. 分层聚类 我们在这里探讨的分层聚类方法是聚合的(而不是分裂的),即在每个宗地独立存在的初始条件下,并且最近端的宗地在同 一 聚类下连接在一起,直到每个宗地都成为最终聚类的一部分。因此,在过程的开始阶段,聚类往往由非常相似的单元组成,但随着过程的发展,相似性阈值会降低,从而允许聚类由更不同的观测值组成。
这种技术(例如,参见[7])允许构建树状分层分组,其中最近端或类似的宗地按顺序分组在一起。因此,在这种方法下,相似性 s(k,l)
在两个群集之间( c k 和 c l )
由距离函数的反函数测量 d(k,l) ,如 s(k,l)=11+d(k,l).
(3) 在这里,我们取欧几里得距离函数,使得任何一对簇之间的距离由( ∀x 我 ∈c k ,x j ∈c l ) d(k,l)=∑ i=1nk ∑ j=1nl ∑ p=1P (x ip −x jp ) 2 −−−−−−−−−−−− ⎷ ,
(4) 哪里 n k 和 n l 代表观测值的数量 i=1,...,n k 和 j=1,...,n l 在集群中 c k 和 c l 分别。
关于将不同集群加入新集群的链接标准,我们计算了两种类型的分区。它们是根据最小(最大)距离构建的,即属于不同聚类的观测值之间的 单一链接(完全链接 ),以这种方式根据我们计算观测组之间接近度的方式构建不同形式的分组。作为这种方法的一个优点,它允许在两个相反的链接标准(单个链接,其中最近端的元素决定群集的配置,以及完全链接,其中邻近性取决于最远的元素)下识别没有特定预定义形状的群集,因为特定的分组取决于(群集)成对接近的推理链。尽管如此,这种方法仍然需要将不同的集群很好地分开才能实现 良好的 分区,但请记住,正确评估分区质量的方法将在第 2.4 节中讨论。
2.3.2. K 均值聚类 K 均值的聚类方法根据不同组的给定数 K 对宗地集进行分区。实现此算法的一个重要条件是必须事先建立组数,因此可以将 K 设置为自由参数,以便根据给定的聚类分析性能标准进行优化。
K 均值过程可以通过对 K 最佳聚类进行启发式搜索来理解,从而最大限度地减少聚类内的变异性。这个问题可以通过找到最小化集群内可变性的分区来解决(参见,例如,[10]):
W K =∑ g=1K ∑ i=1ng ∑ p=1P (x ip −x¯ gp ) 2 ,
(5) 其中,变异性是根据聚类的平均值来度量的。因此, 均值
x¯ g 的群集 c g ,包含元素 x 我 ∈c g ,作为该集群的 原型 。
通常,K 均值过程可获得大小相当的球形聚类,但它对异常值高度敏感,因为均值很容易受到极值的影响。从这个意义上说,使用...
推荐访问:学习管理区对特定地点施氮潜影响:以小麦作物为例 为例 完整版 作物