更新

这里记录文章的更新。

增加学习总结 2024-04-29

经过这几天的摸索尝试。首先梳理了一遍 yolo 的网络模型，以及如何从不同的角度去解决多光谱的问题。我将完成的工作列举如下：

完成了对于多光谱前置知识的一些了解，以及对于多光谱航拍黑匣子数据集如何选择合适地方法来进行对黑匣子进行特征捕获，如何结合 yolo 的网络架构对多光谱进行训练。 2024-04-17 → 2024-04-20
收集并分析现有的多光谱数据集，之前的六组数据集由于无人机视角过高，在人眼识别时也会出现误判，遂采用下降高度数据集。 2024-04-21 → 2024-04-24
了解了多光谱数据集的处理思路，主要为前端融合(early-fusion)或数据水平融合(data-level fusion)、后端融合(late-fusion)或决策水平融合(decision-level fusion)和中间融合(intermediate-fusion)。计划借鉴学习红外光和可见光融合的思路。 2024-04-25 → 2024-04-27
进行数据集处理实操，选择先尝试进行前端融合。同时完成 GUI 的识别位置坐标和置信度的导出。后与老师沟通，尝试通过文献检索查找更专业的思路。 2024-04-25
通过检索文献发现，多光谱数据集融合存在传统方法如主成分分析（PCA）方法，小波变换等，深度学习方法有 transformer，自动解码器等算法。 2024-04-26 → 2024-04-27
然后基于文献，寻找领域相关的算法和尝试可进行复现的代码。尝试基于领域算法，选择通用图像融合框架和全色图像锐化相关的论文和代码进行复现。目前仍存在困惑，困难如下：1.较为难复现高相关度的论文和代码。2.实际黑匣子数据集在处理上存在难度，存在分辨度不一致，格式不一致，有的图像可能需要正射校正，以确保在图像融合时黑匣子特征明显，可能需要专业的处理软件，例如 ENVI 来完成该任务。 2024-04-28 → 2024-04-29

240430 会议纪要

语法正确，主谓宾搭配，写完之后进行检查
逻辑通顺，论文和说明文之间，先叙述原因和得出的结论，避免”感叹“，避免偏散文，实事求是，恰如其分，符合科技论文的逻辑。例如空难事故，人工搜索，效率角度，无人机检测提升搜寻速度，需要有因果逻辑。
文字数量和篇幅：正文部分，30-50 页之间，需要进行组织和修改，控制复制比在 25%一下。可以参考，参考完需要根据自己的逻辑理顺。
论文中图标公式需要规范，图片照片清晰度要足够。200dpi 以上，拍摄的时候保持环境干净，表格采用三线表，宽度居中，公式需要用公式编辑器。需要有表题，图题，恰如其分，图题表题在十几个字左右，半行左右，特殊情况除外。图标公式需要进行编号。
论文之间需要成体系，要满足基本的逻辑关系。 ——单独说明
实验说明需要描述详细，描述需要进行图文结合。做两次说明。实验数据需要充分。需要有几十种的测量说明，需要有典型实验结果的说明。其二，需要用统计实验结果，需要有曲线。最后得到的结论要可靠。
列出论文章节的目录，根据自己的工作分章节，大框架：绪论：背景和意义，国内外研究综述，主要研究内容，第二部分，算法的设计，网络架构是啥样子的，针对每个模块的公式，介绍该模块的公式。第三部分，软件的模块，图像预处理，特征提取，算法对应的代码的实现，主要介绍步骤，对应的关键源代码。第四部分，实验验证，系统实现。第五章，结论。注意事项，论文中不要大篇幅出现教科书上的东西的基础知识，即使有，三五行带过。参考文献内容，需要在文中进行引用。核心设计部分，参考…方案，这部分引用，引用数量大于 20，国内外 50%比例，最好超过 30，少于 50。
时间节点：5.2 列出论文的目录（要和自己的真实情况匹配）、5.8 号初稿（堆积所有的原始材料），5.12 翻译图表，5.16 完成格式问题修改。（图题表不能跨页，参考内容不能有水印），5.20 演示毕设成果完善，能现场真实演示，最后有运行视频的演示来证明成果，来验证工作量和论文数据相吻合，5.16-5.20 交盲审版论文。5.23 上传 PPT 和终稿。5.25 正式答辩，5-15 分钟时间。最好在**5.24 进行预讲解。**5.23-5.24 把 PPT 做好。辩证使用大模型。

💡 计划先把论文的大框架搭出来，再去优化内部具体的细节。 2024-05-02

前言

多光谱需求的提出：

现有的目标检测算法大多数是基于可见光的 RGB 图像进行的，该类算法依赖光照条件，在光照不足的情况下，漏检率会急速上升；热图像在光照不良条件下可以获得稳定的目标特征。
——基于改进的 YOLOv4 的多光谱目标检测算法研究党佳

我的理解：通过多光谱可以通过对其他光谱的图像特征进行捕捉，从而提高在不同环境下的识别性能，如果单纯训练可见光，也许在夜晚环境下的模型的表现就会变差，而通过其他光谱就可以获得稳定的目标特征，从而实现模型更好地的环境适应性。

正文

目前针对多光谱的研究大多针对行人检测、矿藏探测，课题用到的航拍黑匣子数据集，在尝试该方法时具有一定的新颖性和难度，通过查阅各种资料，大概对如何解决多光谱问题的思路有了一个基本的了解。

目前，多模态数据融合主要有三种融合方式：__前端融合(early-fusion)或数据水平融合(data-level fusion)、后端融合(late-fusion)或决策水平融合(decision-level fusion)和中间融合(intermediate-fusion)。
前端融合将多个独立的数据集融合成一个单一的特征向量，然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利用多个模态数据间的互补性，且前端融合的原始数据通常包含大量的冗余信息。因此，多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息，如主成分分析（PCA）、最大相关最小冗余算法（mRMR）、自动解码器（Autoencoders）等。
后端融合则是****将不同模态数据分别训练好的分类器输出打分(决策)进行融合。这样做的好处是，融合模型的错误来自不同的分类器，而来自不同分类器的错误往往互不相关、互不影响，不会造成错误的进一步累加。常见的后端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、贝叶斯规则融合(Bayes’rule based)以及集成学习(ensemble learning)等。其中集成学习作为后端融合方式的典型代表，被广泛应用于通信、计算机识别、语音识别等研究领域。
中间融合是指将不同的模态数据先转化为高维特征表达，再于模型的中间层进行融合。****以神经网络为例，中间融合首先利用神经网络将原始数据转化成高维特征表达，然后获取不同模态数据在高维空间上的共性。中间融合方法的一大优势是__可以灵活的选择融合的位置。
—— yolov5 可见光+红外双模态融合 桦树无泪

多光谱基础知识

多光谱的领域：多光谱图像的使用涵盖了广泛的领域，主要因为它们提供了比传统 RGB 图像更加丰富和细致的信息。这些信息对于理解和分析各种自然和人造物体的特性至关重要。以下是使用多光谱图像的一些主要原因和应用领域：

增强的视觉信息

多光谱成像能够捕捉到物体在不同波长下的反射或发射光谱，这些信息对于裸眼或传统相机不可见。这使得多光谱图像能够揭示物体的隐藏特征，如健康状况、材质成分、水分含量等。

精确的物体识别和分类

在农业、地质学、环境监测等领域，多光谱图像可以用于更精确地识别和分类不同的植被类型、土壤、矿物或其他材料。这是因为不同物质在特定波长下的反射或吸收特性各不相同。

健康和疾病监测

在农业中，多光谱成像技术可以用来监测作物的健康状况，识别植物疾病和害虫侵害。通过分析植被在不同光谱带的反射率，可以早期发现作物受损的迹象。

环境监控

多光谱图像在环境监控和管理中扮演着重要角色，如监测水体污染、森林覆盖变化、土地利用变化和自然灾害（如洪水、火灾）的影响。

搜救和安全应用

在搜救和安全领域，多光谱成像技术可以用于搜救和辅助定位，帮助识别和区分目标和背景，即使在夜间或其他低可见度条件下。

艺术品分析

多光谱成像技术也被用于艺术品的鉴定和分析，能够揭示画作下隐藏的图层、笔触细节和使用的材料，有助于确定艺术品的真伪和历史。

医学成像

在医学领域，多光谱成像技术用于提高疾病诊断的准确性，如皮肤病变的检测、组织样本的分析等。

地图制作和遥感

多光谱图像是制作高精度地图和进行遥感分析的关键。它们在土地覆盖分类、资源勘探和气候变化研究中发挥着重要作用。

总之，多光谱图像之所以被广泛使用，是因为它们能提供比传统图像更多的信息，这些信息对于科研、工业、医疗和环境保护等多个领域都极其宝贵。

在使用 YOLOv5 进行多光谱图像识别时，结果端融合（也称为决策层融合或高层融合）是一个关键步骤，它涉及将来自不同光谱通道的检测结果合并，以提高整体的识别准确性和可靠性。多光谱图像通常包括除了可见光以外的其他波段（如红外、近红外、热红外等），每个波段都能提供不同的物理信息，对于特定应用场景下的目标检测和识别非常有用。

结果端融合主要有以下几种策略：

1. 投票法（Voting）

在投票法中，每个模型对同一个目标的检测结果被视为一个“投票”，最终决定该目标的类别和位置基于所有模型投票的多数决。这种方法简单直观，但可能不够灵活，尤其是当不同光谱图像的可靠性存在较大差异时。

2. 加权融合

加权融合方法考虑了不同光谱通道对最终决策的贡献可能不同。每个通道的检测结果根据其可靠性、清晰度或其他相关指标被赋予不同的权重，然后进行加权平均。这要求事先对各个光谱通道的性能有一个准确的评估。

3. 特征级融合

尽管特征级融合通常发生在模型的早期阶段，但在某些情况下，也可以在结果端通过融合不同光谱通道的特征来进行。这涉及到将来自不同光谱的检测结果的特征（如置信度、边界框属性等）合并，然后基于这些融合的特征进行最终的目标分类和定位。

4. 联合模型方法

在联合模型方法中，不是单独处理每个光谱通道，然后再融合结果，而是设计一个能够同时处理多个光谱输入的模型。这种方法通常需要较为复杂的模型架构设计，但能更好地利用不同光谱之间的相关性。

实现步骤

对于 YOLOv5 识别多光谱图像的结果端融合，可以按照以下步骤进行：

单独检测：对每个光谱通道分别使用 YOLOv5 进行目标检测。
结果提取：从每个通道的检测结果中提取目标的类别、置信度和边界框等信息。
融合策略选择：根据应用需求和不同光谱通道的特性，选择合适的融合策略。
结果融合：按照选定的融合策略，合并不同光谱通道的检测结果。
后处理：对融合后的结果进行必要的后处理，如非最大抑制（NMS）等，以确保最终结果的准确性和一致性。

通过这样的融合策略，可以充分利用多光谱图像中的信息，提高 YOLOv5 模型在特定应用场景中的目标检测和识别性能。

结果融合通常意味着你需要对每个光谱通道的数据分别进行训练，得到各自的模型，然后在推理（inference）阶段将这些模型的结果按照一定的策略进行融合。这种方法的优点是能够充分利用每个光谱通道的特定信息，但同时也意味着需要更多的计算资源和时间来训练和维护多个模型。

具体来说，结果融合的流程包括以下几个步骤：

独立训练：针对多光谱图像中的每个通道，分别训练一个 YOLOv5 模型。这意味着如果你有三个光谱通道（比如红外、可见光和近红外），你需要分别训练三个 YOLOv5 模型。
单独推理：在模型部署时，对于每个待检测的多光谱图像，分别使用这些训练好的模型对每个光谱通道进行目标检测。
结果提取：从每个光谱通道的检测结果中提取关键信息，如目标的位置（边界框）、类别和置信度等。
融合决策：根据预先定义的融合策略（如投票法、加权融合等），将从各个光谱通道得到的检测结果进行合并。这一步是关键，它决定了如何从各个通道的结果中提取和结合信息以得到最终的检测结果。
后处理：对融合后的结果进行后处理，如应用非最大抑制（NMS）等技术，以消除重复的检测并优化最终的检测结果。

结果融合方法的选择取决于多种因素，包括不同光谱通道的特性、目标应用的特定需求以及可用的计算资源等。正确实施结果融合可以显著提高多光谱图像目标检测的准确性和鲁棒性。

在多光谱图像处理中，某个光谱通道的特征不明显是一个常见问题，这可能是由于该通道的图像质量较差、目标与背景的对比度低、或是该光谱范围内目标的特征本身就不明显等原因造成的。面对这种情况，可以采取以下几种策略来改善目标检测和识别的性能：

1. 加权融合调整

在结果融合时，可以对不同光谱通道的结果赋予不同的权重。对于特征不明显的通道，可以降低其权重，增加特征更加明显通道的权重。这种方法需要依据实验或先验知识来调整权重，以确保融合结果的准确性。

2. 特征增强

在对特征不明显的光谱通道进行处理之前，可以尝试使用图像增强技术来提升其目标特征的可见性。这包括对比度增强、直方图均衡化、噪声抑制等方法。通过增强图像，可能能够提高目标的可识别性，从而在后续的目标检测步骤中获得更好的结果。

3. 联合模型优化

如果在预处理和权重调整后仍然面临特征不明显的问题，可以考虑使用或开发专门针对多光谱数据的联合模型。这种模型可以在更深的层次上整合不同光谱通道的信息，可能通过学习不同光谱之间的互补信息来弥补单一通道的不足。

4. 数据融合而非结果融合

在某些情况下，直接在数据层面进行融合（即在输入模型之前将不同光谱的图像信息进行合并）可能比结果融合更有效。这可以通过设计一个能够处理多光谱输入的模型来实现，模型可以学习如何最好地从所有可用的光谱信息中提取特征。

5. 选择性使用通道

在极端情况下，如果某个光谱通道的信息对于目标检测几乎没有帮助，甚至会引入干扰，可以考虑在分析过程中忽略这个通道。这需要通过实验来验证，确保排除某个通道后，整体的检测性能不会下降。

6. 利用深度学习技术

利用深度学习中的一些高级技术，如注意力机制（Attention Mechanisms），可以让模型更加聚焦于图像中的重要特征，即使这些特征在某些光谱通道中不是非常明显。

总之，针对多光谱图像中某个通道特征不明显的情况，可以通过多种策略来提高整体的目标检测和识别性能。选择哪种策略取决于具体的应用场景、可用的数据以及目标任务的需求。

1. 图像堆叠（Stacking）

最直接的融合方式是将不同光谱通道的图像直接堆叠在一起，形成一个多通道的输入。例如，如果有三个光谱通道（红、绿、蓝），可以将它们堆叠成一个三通道图像。对于多光谱数据，你可能会得到超过三个通道的图像，这对于深度学习模型来说通常不是问题，因为它们可以处理任意数量的输入通道。

2. 特征级融合

在这种方法中，不同光谱通道的图像首先通过一些预处理步骤，比如使用图像处理算法来提取特定的特征（如边缘、纹理等），然后将这些特征图像堆叠起来作为模型的输入。这种方法允许模型从一开始就接触到更加丰富的特征信息，可能有助于提高识别的准确性。(之前了解过FPGA 的 sobel 边缘算法，可以在这方面的处理发挥作用)

3. 图像融合技术

在将图像送入模型之前，可以使用高级图像融合技术将不同光谱的图像融合成一个单一的图像。这包括加权平均、多分辨率分析（如小波变换）、PCA（主成分分析）融合等方法。这种融合技术尝试在保留重要信息的同时减少数据量，使得模型可以从一个综合的视角来学习数据。

4. 使用深度学习进行特征融合

可以设计一个深度学习架构，在模型的早期阶段就进行特征融合。例如，可以为每个光谱通道设计一个单独的特征提取子网络，然后通过某种方式（如连接（concatenation）、加权平均等）将这些特征融合起来，供后续的网络层进一步处理。这种方法允许模型自动学习如何最有效地融合来自不同光谱通道的信息。

5. 注意力机制

利用注意力机制可以在模型内部自动识别和强调重要的特征，同时忽略不那么重要的信息。在多光谱融合的上下文中，可以设计注意力模型来自动学习每个光谱通道的重要性，并据此调整融合策略。这样，即使某些通道的特征不是很明显，模型也能通过强调其他通道的特征来做出准确的预测。

在进行输入端融合时，关键是要选择或设计一个适合你具体任务需求的融合策略。不同的融合技术可能在不同的应用场景下表现出不同的效果，因此可能需要通过实验来确定最佳的融合方法。

先标注再融合

在这种策略中，每个光谱通道的图像都被单独标注，然后将这些图像按照一定的方式融合。这种方法的优点在于：

标注精确度：标注者可以针对每个通道的特性进行精确标注，特别是在某些通道的特征比较明显时，可以确保标注的质量。
灵活性：在融合前进行标注，可以根据需要选择性地融合特定的通道，或者调整融合策略而不影响已有的标注。

然而，这种方法的挑战在于：

标注工作量：需要对每个通道的图像分别进行标注，可能会增加标注的工作量。
一致性问题：不同通道间的标注需要保持一致，这在实践中可能较难确保，尤其是当不同通道的图像特征差异较大时。

融合后标注

在这种策略中，先将不同光谱通道的图像融合成一个单一的图像，然后对融合后的图像进行标注。这种方法的优点包括：

减少标注工作量：只需要对融合后的图像进行一次标注，可以显著减少标注的工作量。
利用互补信息：融合过程可以结合不同通道的互补信息，可能会使得某些在单个通道中不明显的特征在融合后的图像中变得更加突出，从而提高标注的准确性和易性。

然而，这种方法也有其挑战：

融合策略的选择：如何融合不同通道的图像，以及融合方法对最终标注质量的影响，需要仔细考虑。
可能隐藏某些特征：融合过程可能会导致某些通道的特定特征被其他通道的特征所掩盖，尤其是当某些通道的特征非常微弱时。

在输入端进行融合通常意味着在数据进入模型之前，将来自不同光谱通道的图像信息合并。这种方法尤其适用于处理多光谱或多模态数据，可以让模型直接从融合后的数据中学习到跨通道的特征。输入端的融合可以通过以下几种方式实现：

输入端融合的标注策略取决于数据的特性和融合方法，以及最终的应用目标。理解这两种策略——先标注再融合与融合后标注——的优劣及适用情况，对于设计有效的多光谱图像处理流程至关重要。同时，处理特征不明显的通道的策略也需要考虑。

对于特征不明显的通道的处理

即使某些通道的特征不是很明显，也建议进行标注，因为：

互补信息：在多光谱分析中，不同通道之间的信息是互补的。即使某个通道的特征不明显，它也可能包含对整体任务有帮助的信息。
模型学习：深度学习模型尤其擅长从复杂、微妙的数据中学习模式。即使人类观察者难以识别的特征，模型也可能能够识别并利用这些特征。

总的来说，是否先融合后标注，或是先标注再融合，以及如何处理特征不明显的通道，应该基于具体的应用场景、数据特性以及实际操作的便利性来决定。在实际操作中，可能需要通过试验和错误来找到最适合特定项目需求的方法。

1. 反射和吸收特性 物体在不同波长下的反射和吸收特性是多光谱成像分析中的关键。这意味着，如果“黑匣子”是由特定材料制成，它可能会在特定的光谱波段（如红外线或紫外线）显示出独特的吸收或反射特性。 2. 热特性 在红外波段，多光谱图像可以揭示物体的热特性，比如它的热发射率。如果“黑匣子”在操作中发热，这种热特性可能在红外图像中显现出来。 3. 材料组成 通过分析多光谱图像，可以推断出物体的材料组成。不同的材料在特定光谱波段下会有不同的反射和吸收行为。例如，金属和塑料在红外波段的反射率可能会有显著差异。 4. 表面特征 表面纹理和特征在多光谱图像中也可能被揭示，尤其是在那些能够突出表面细节的波段。这可以帮助识别“黑匣子”的使用状况，例如是否有磨损、划痕或其他物理损伤。 5. 内部结构 某些多光谱成像技术，如近红外成像，可能透露一些关于物体内部结构的信息，尽管这通常需要特定的条件和较弱的材料吸收。 6. 环境影响 “黑匣子”与其周围环境的交互也可能在多光谱图像中显示出来，例如，如果“黑匣子”被水覆盖，或者周围有植被等。需要注意的是，要准确地分析“黑匣子”的多光谱图像特征，通常需要**对该物体的材料属性、预期的使用环境和多光谱成像技术的特定能力有深入的了解。**此外，多光谱成像是一个广泛的领域，包括从可见光到红外、甚至 X 射线的各种波长，不同的应用和目的可能需要不同的成像技术和分析方法。

TIFF（Tagged Image File Format）是一种常见的图像文件格式，广泛应用于存储和传输高质量的图像数据。以下是关于 TIF 格式的介绍：

存储特性：TIF 格式允许存储单个或多个图像，支持灰度图像、彩色图像以及多通道图像。它还支持无损压缩，可以保留图像的高质量细节。
元数据：TIF 文件允许存储丰富的元数据信息，包括图像的描述、颜色空间、像素值范围以及其他与图像相关的信息。这使得 TIF 文件非常适合用于科学、医学和印刷行业等对图像元数据要求严格的领域。
色彩深度：TIF 格式支持不同的色彩深度，包括 1 位二进制图像（黑白），8 位灰度图像，24 位真彩色图像等。此外，TIF 还支持 16 位和 32 位的高位深度图像，可用于保留更多色彩信息。
适用范围：TIF 格式通常用于存储需要高质量图像和元数据的应用场景，如印刷品质图像、医学影像、地理信息系统（GIS）、数字艺术等。由于其灵活性和可靠性，TIF 格式也常被用于数字档案保护和长期保存。
压缩方式：TIF 文件支持多种压缩方式，包括无压缩、LZW 压缩、JPEG 压缩和 ZIP 压缩等。这些压缩方式可以根据实际需求选择，平衡图像质量和文件大小。

总的来说，TIF 格式以其灵活性、高质量和丰富的元数据支持而闻名，在许多专业领域中被广泛应用。无论是用于存档、打印还是专业图像处理，TIF 都是一个可靠的选择。

多光谱数据融合是一种将来自不同光谱波段的图像或数据集成到一起的技术，旨在改善图像的解析度、对比度或者提取更多的信息。在深度学习领域，多光谱数据融合技术已经被广泛应用于遥感、医学成像、自动驾驶汽车等多个领域。

改进的深度神经网络结构：研究者们设计出更加高效的神经网络结构来处理多光谱数据，例如改进的卷积神经网络（CNN）和生成对抗网络（GAN）。这些网络能够更好地从多光谱数据中提取特征，并进行有效的融合。
端到端的学习方法：传统的多光谱融合技术往往依赖于手工特征提取和后处理步骤。而最新的研究成果表明，端到端的深度学习方法可以直接从原始多光谱数据中学习到融合的表示，减少了预处理的需求，并提高了融合效果。
自监督和半监督学习：由于高质量的多光谱数据标注代价昂贵，自监督学习和半监督学习在多光谱数据融合中变得越来越重要。这些方法可以利用大量未标记的数据来提高模型的泛化能力。
跨模态融合技术：跨模态融合技术涉及将多光谱数据与其他类型的数据（如激光雷达、声纳等）结合起来，以提供更加丰富的环境信息。深度学习模型在这方面的应用已经取得了实质性进展，如多模态神经网络能够同时处理和融合来自不同传感器的数据。
注意力机制和变换器模型：注意力机制已经被证明在多光谱数据融合中非常有效，它可以使网络聚焦于最重要的特征。同时，变换器（Transformer）模型也被应用于多光谱数据融合，由于其优越的长距离依赖建模能力，变换器模型在处理大规模多光谱数据时显示出了巨大的潜力。
解释性和可视化：随着深度学习模型在多光谱融合中的应用越来越广泛，研究者也越来越关注模型的解释性。最新的研究致力于开发可解释的深度学习模型和可视化工具，帮助用户理解模型的决策过程。
实时处理和边缘计算：为了在实际应用中实现实时多光谱数据融合，研究者们正在开发更高效的算法和优化模型，以便它们能够在边缘设备上运行，这对于需要快速响应的应用场景（如自动驾驶）尤为重要。