一种基于语义特征向量的渔船类型识别方法

专利查询2024-4-5 178

1.本发明属于海上船舶监管技术领域，尤其涉及一种基于语义特征向量的渔船类型识别方法，该方法基于word2vec词向量模型提取语义特征向量结合lightgbm分类模型来完成渔船类型识别。

背景技术：

2.海洋渔业量化研究和非法捕鱼活动监控是海洋资源管理的关键技术。当前量化捕鱼研究均基于单一渔船作业类型，然而渔船实际捕鱼作业方式类型多样，因此基于船只监控系统 (vessel monitoring system，vms)轨迹识别渔船作业类型是首先要解决的问题。
3.基于卫星的船只监控系统是一种海上航行必备的系统，它最初用来加强海上航行安全，作为一种渔船监控手段，也为渔业科学研究提供一种新的数据来源。vms记录主要包括船舶编号，时间戳，位置，即时速度等渔船实时航行数据。随着大数据发展和轨迹数据挖掘的深入研究，基于vms数据的研究成为渔业行为挖掘及相关应用的一种重要手段。
4.近年来，基于vms轨迹数据对渔船作业类型分类主要聚焦在神经网络自动提取特征结合深度学习、人工提取特征结合机器学习两个方向。神经网络自动提取特征结合深度学习主要包含将渔船轨迹转化为图片输入卷积神经网络(convolutional neural networks,cnn)进行图片分类、将轨迹转为序列数据输入循环神经网络(recurrent neural network,rnn)进行序列数据建模。然而，将渔船轨迹转化为图片使用卷积神经网络会丧失渔船速度、方向等重要特征，存在渔船作业类型分类准确率低、分类类别少等问题；将vms轨迹数据进行序列化后直接输入循环神经网络，缺少渔船轨迹数据特征建模过程，存在分类准确率低等问题。总的来说，基于深度神经网络对vms轨迹数据进行训练，可以实现特征工程自动化，无需研究手动设计特征，但训练复杂、计算量大，比较耗时而且深度学习可解释性较差。人工提取特征结合机器学习主要对经典特征建模，提取渔船速度、航向、转向角等特征的均值、中位数和方差等统计量，该方法并未考虑到渔船轨迹数据的时空特征，存在特征提取不充分的问题。此外，研究渔船不同作业方式需要大量的领域专家知识，而且手动从原始数据中提取高阶组合特征耗费研究人员精力，无法专注于研究算法模型，存在人工构建特征复杂的问题。

技术实现要素：

5.本发明的一个目的是要解决的技术问题在于对人工构建特征复杂、特征提取不充分以及深度学习分类准确率低的问题，提出一种基于word2vec词向量模型提取语义特征向量结合lightgbm分类模型的渔船类型识别方法，识别渔船作业类型，为进一步科研提供参考。
6.本发明采用的技术方案是基于word2vec词向量模型提取语义特征向量结合lightgbm分类模型的渔船类型识别方法，包括以下步骤：
7.s1、数据预处理阶段：
8.1-1采集带有渔船作业类型标记的渔船历史vms轨迹数据，将其转换为track＝ {pointsi(lat,lon,speed,time,dir,type)∣i＝1,2,
…
,n}的格式，其中track表示单艘渔船的轨迹点集合，pointsi表示第i时刻的轨迹点，lat表示纬度，lon表示经度，speed表示瞬时速度，time表示轨迹点采集时间，dir表示当前渔船朝向，n表示最大时刻，type表示渔船作业类型，包括：拖网类型、围网类型和刺网类型；
9.1-2对步骤1-1处理后的数据采用基于船位轨迹的航迹提取算法，提取出渔船完整的出进港轨迹；
10.1-3对步骤1-2提取出渔船的航次轨迹采用基于速度约束的渔船轨迹修复算法进行数据修复，得到经航次提取和轨迹修复的渔船轨迹数据；
11.1-4根据步骤1-1至1-3构建多条渔船修复后航次轨迹集,表示为渔船轨迹数据集 data＝{tv∣v＝1,2,
…
,v},其中tv表示第v条渔船修复后航次轨迹集，v表示渔船的数量；
12.s2、利用基于词嵌入语义特征抽取模型对渔船轨迹数据集data进行语义特征抽取；其中基于词嵌入语义特征抽取模型包括基于经纬度的词嵌入模型、基于速度方向的词嵌入模型、基于海域网格的词嵌入模型、拼接层；其中基于经纬度词嵌入模型对经纬度进行特征抽取；基于速度方向词嵌入模型对速度、方向进行特征抽取；基于海域网格词嵌入模型对渔船经过海域进行特征抽取；
13.s3、分类模型训练阶段：
14.首先将s2语义特征抽取阶段得到的轨迹特征向量划分训练集和测试集；然后将训练集输入lightgbm分类器进行训练，使用测试集对lightgbm分类器进行测试；最后利用训练好的lightgbm分类器实现vms渔船轨迹识别渔船作业类型。
15.本发明的另一个目的是一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项所述的方法。
16.本发明的又一个目的是一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-6中任一项所述的方法。
17.本发明的有益效果是：
18.1、本发明采用基于词嵌入的特征抽取方法，其可以主动提取渔船轨迹的高阶特征，避免了手工设计特征对存在特征提取不充分的问题，提高分类准确性，无需人工提取特征，降低了人员的工作量。
19.2、本发明使用效果稳定分类模型，设计航迹提取算法和数据修复算法对vms渔船轨迹进行处理，有效的减少数据噪声对分类结果的影响，提高了识别系统的稳定性。此外，将神经网络应用到渔船作业类型识别中，相对于传统的分类方法，提高了分类的准确性。
附图说明
20.图1为本发明基于语义特征向量的渔船类型识别方法流程。
21.图2为基于经纬度词嵌入模型说明图。
22.图3为基于速度方向词嵌入模型说明图。
23.图4为基于海域网格词嵌入模型说明图。
具体实施方式
24.下面结合附图对本发明提供的技术方案作进一步说明。
25.参见图1，本发明提供一种基于word2vec词向量模型提取语义特征向量结合lightgbm 分类模型的渔船类型识别方法，图1所示为该方法的整体架构图，整体而言，本发明包括3 大步骤，步骤s1数据预处理阶段：通过航迹提取算法和数据修复算法对渔船轨迹数据处理；步骤s2语义特征抽取阶段：设计基于词嵌入语义特征抽取模型，使用步骤s1的数据集进行特征抽取，得到语义特征向量；步骤s3分类模型训练阶段：使用lightgbm分类模型对s2步骤得到的语义特征向量进行训练，实现渔船作业类型的识别。
26.步骤s1数据预处理阶段包括：对历史vms轨迹数据量大的问题，提出基于船位轨迹的航迹提取算法对历史vms轨迹数据处理，提取渔船进出港轨迹；提出基于速度约束的数据修复算法对渔船轨迹中的异常速度和异常位置进行处理，降低数据噪声对渔船分类的影响。
27.图1中数据预处理阶段为本发明提供一种基于word2vec词向量模型提取语义特征向量结合lightgbm分类模型的渔船类型识别方法中上述步骤s1的框架流程图，其进一步包括以下步骤：
28.1-1采集带有渔船作业类型标记的渔船历史vms轨迹数据，将其转换为track＝ {pointsi(lat,lon,speed,time,dir,type)∣i＝1,2,
…
,n}的格式，其中track表示单艘渔船的轨迹点集合，pointsi表示第i时刻的轨迹点，lat表示纬度，lon表示经度，speed表示瞬时速度，time表示轨迹点采集时间，dir表示当前渔船朝向，n表示最大时刻,type表示渔船作业类型，包括：拖网类型、围网类型和刺网类型；
29.1-2对步骤1-1处理后的数据采用基于船位轨迹的航迹提取算法，提取出渔船完整的出进港轨迹；具体是：
30.1-2-1：将港口区域抽象为一个多边形，表示为port＝{pk(lat,lon)∣k＝1,2,
…
,k}，通过多边形形心公式计算港口形心坐标；
31.其中port表示具体的港口，pk表示港口的边界点，k表示港口边界点顺序， k表示边界点的数量；
32.1-2-2：对每个轨迹点根据纬度lat、经度lon获得当前渔船的位置信息，然后根据两点间距离公式计算当前位置的渔船与港口形心间的距离di；若di≤阈值d0，则将di更新为0，反之则不变；所述阈值d0为港口区域最大外周圆的半径；
33.1-2-3：依次遍历所有轨迹点，对每个轨迹点进行出港点与进港点识别，具体是：
34.判断当前轨迹点pointsi的距离di是否为0；若di＝0则继续判断下一时刻轨迹点的距离 d
i+1
是否为0，若d
i+1
≠0则认为轨迹点pointsi的位置为出港点，若d
i+1
＝0则认为当前渔船未移动；若di≠0则继续下一时刻轨迹点的距离d
i+1
是否为0，若d
i+1
＝0则认为轨迹点pointsi的位置为进港点，若d
i+1
≠0则认为当前渔船在移动状态；
35.1-2-5：根据渔船的出港点、进港点，对渔船轨迹track进行截取，获得渔船的多条航次轨迹集合
36.trajectory＝ {trajectoryj(pointsi(shiptrackid,lat,lon,speed,time,dir,type)i＝1,2,
…
,n)∣∣j＝1,2,
…
,m))} ；其中trajectory为单艘渔船航次轨迹集合，trajectoryj为当前渔船的第j条航次轨迹， shiptrackid表示渔船航次轨迹唯一标识id，m
表示单艘渔船的航次轨迹数量。
37.1-3对步骤1-2提取出渔船的航次轨迹采用基于速度约束的渔船轨迹修复算法进行数据修复，得到经航次提取和轨迹修复的渔船轨迹数据；具体是：
38.1-3-1：对渔船进出港航次轨迹trajectoryj，在置信度区间为95％的前提下，基于统计方法得到最小瞬时速度speed
min
和最大瞬时速度speed
max
以及相邻两轨迹点间的最小平均速度meanspeed
min
和最大平均速度meanspeed
max
；
39.1-3-2：对每个轨迹点的瞬时速度判断是否落在[speed
min
,speed
max
]内,若不在则认为当前轨迹点的瞬时速度为异常值，并将该瞬时速度更新为空值，反之则认为当前轨迹点的瞬时速度为正常值，不做更新操作；
[0040]
1-3-3：遍历该渔船航次轨迹点集合trajectory
[0041]
利用半正矢公式计算步骤1-3-2处理后相邻时刻两轨迹点pointsi、points
i+1
之间的距离，然后进一步计算上述两轨迹点之间的平均速度meanspeed
(i,i+1)
；对平均速度 meanspeed
(i,i+1)
判断是否落在[meanspeed
min
,meanspeed
max
]内,若不在则认为轨迹点 pointsi的经度和纬度为异常值，并将该经度和纬度更新为空值，反之则认为当前轨迹点的经度和纬度为正常值，不做更新操作；
[0042]
1-3-4：利用多项式插值法对步骤1-3-3处理后 trajectoryj＝{pointsi(shiptrackid,lat,lon,speed,time,dir,type)∣i＝1,2,
…
,n}中空值进行补全,获得修复后航次轨迹 t_repairj＝{pointsi(shiptrackid,lat,lon,speed,time,dir)∣i＝1,2,
…
,n}，进而得到修复后航次轨迹集
[0043]
t＝ {t_repairj(pointsi(shiptrackid,lat,lon,speed,time,dir,type)i＝1,2,
…
,n)∣∣j＝1,2,
…
,m))} ；其中t_repairj表示修复后的某渔船第j条航次轨迹。
[0044]
1-4根据步骤1-1至1-3构建多条渔船修复后航次轨迹集,表示为渔船轨迹数据集 data＝{tv∣v＝1,2,
…
,v},其中tv表示第v条渔船修复后航次轨迹集，v表示渔船的数量；
[0045]
参见图1中语义特征抽取阶段，本发明一种基于word2vec词向量模型提取语义特征向量结合lightgbm分类模型的渔船类型识别方法中步骤s2包括以下步骤：
[0046]
步骤s2：利用基于词嵌入语义特征抽取模型对渔船轨迹数据集data进行语义特征抽取；其中基于词嵌入语义特征抽取模型包括基于经纬度的词嵌入模型、基于速度方向的词嵌入模型、基于海域网格的词嵌入模型、拼接层；
[0047]
2-1基于经纬度词嵌入模型对经纬度进行特征抽取；
[0048]
如图2基于经纬度词嵌入模型包括geohash编码特征抽取模块、梯度编码特征抽取模块以及拼接层；
[0049]
所述的geohash编码特征抽取模块用于对航次轨迹进行geohash编码并抽取geohash编码特征，得到shiptrackid对应航次轨迹的分布式特征向量；具体是：
[0050]
(1)对渔船轨迹数据集data中各轨迹点的纬度lat和经度lon进行geohash算法编码，得到渔船经纬度的哈希编码d
hashcode
；
[0051]
(2)对d
hashcode
使用scikit-learn工具包中tfidfvectorizer算法进行计算，将其转化为tf-idf的特征矩阵，然后使用truncatedsvd算法对该矩阵进行文本主题分析，得到 shiptrackid对应航次轨迹的哈希编码主题向量
[0052]
(3)对d
hashcode
使用word2vec词向量嵌入进行分布式特征向量表示,得到
shiptrackid 对应航次轨迹的哈希编码特征向量
[0053]
所述的梯度编码特征抽取模块用于对航次轨迹作经纬度梯度编码并抽取经纬度梯度编码的特征，得到shiptrackid对应航次轨迹的梯度编码主题向量具体是：
[0054]
(1)对渔船轨迹数据集data中每条修复后航次轨迹计算经纬度梯度，然后进行数据合并后得到渔船经纬度梯度的编码data
grad
；
[0055]
(2)对data
grad
使用scikit-learn工具包中tfidfvectorizer算法进行计算，将其转化为tf-idf的特征矩阵，然后使用truncatedsvd算法对该矩阵进行文本主题分析，得到 shiptrackid对应航次轨迹的梯度编码主题向量
[0056]
所述拼接层用于将geohash编码特征抽取模块和梯度编码特征抽取模块的输出进行拼接，得到基于经纬度词嵌入模型抽取的特征向量。
[0057]
2-2如图3基于速度方向词嵌入模型对速度方向进行特征抽取；具体是：
[0058]
2-2-1：对渔船轨迹数据集data中的速度speed和方向dir进行字符串编码str得到字符串编码后的轨迹d
str
＝{co(shiptrackid,speed_dir)∣o＝1,2,
…
,o))}，speed_dir为速度和方向的字符串拼接，o为渔船轨迹数据集的轨迹点个数；
[0059]
2-2-2：对d
str
使用word2vec词向量嵌入进行分布式特征向量表示,根据shiptrackid对应的渔船轨迹序列，获得对应shiptrackid的分布式特征向量
[0060]
2-3如图4基于海域网格词嵌入模型对渔船经过海域进行特征抽取；具体是：
[0061]
2-3-1：首先将渔船轨迹数据集data中的lat和lon转换为墨卡托坐标，然后细粒度划分渔船经过海域为网格，并按照顺序给网格编号；
[0062]
2-3-2：根据单艘渔船经过的海域网格，将每条渔船航次轨迹中各轨迹点转为网格编号序列，得到各渔船行驶的子海域网格序列序列，得到各渔船行驶的子海域网格序列表示第β条渔船航次轨迹网格编号表示；
[0063]
2-3-3：将海域网格序列数据集data
serialize
输入word2vec词向量模型进行训练，最后根据shiptrackid得到单艘渔船的网格编码特征向量
[0064]
2-4拼接三个词嵌入模型抽取的特征向量形成串联合并向量，得到基于词嵌入语义特征抽取模型抽取的特征向量；
[0065][0066]
参见图1中分类模型训练阶段，本发明一种基于word2vec词向量模型提取语义特征向量结合lightgbm分类模型的渔船类型识别方法中步骤s3包括以下步骤：
[0067]
步骤s3：使用lightgbm分类模型对s24步骤得到的语义特征向量进行训练，实现渔船作业类型的识别，其进一步包括以下步骤：
[0068]
3-1:首先将s2语义特征抽取阶段得到的轨迹特征向量按照8：2划分训练集和测试集；然后将训练集输入lightgbm分类器进行训练，使用测试集对lightgbm分类器进行测试；最后利用训练好的lightgbm分类器实现vms渔船轨迹识别渔船作业类型。
[0069]
下面对本发明的方法的具体应用例中对船舶类型进行识别的实验以及分析过程进行介绍：
[0070]
对vms轨迹数据人工构建特征复杂、特征提取不充分以及深度学习分类准确率低的问题，本发明提出基于词嵌入语义特征抽取模型。该模型将经纬度、速度和方向特征编码为文本序列转化为语义特征抽取,使用深度神经网络模型对特征进行抽取。这种方式无需人工构建特征工程、能够充分表达出vms数据的时序特征及语义特征，将提取特征输入分类模型，实验验证分类结果有着较高的准确性。对词嵌入语义特征抽取模型抽取特征本文称为基于embedding 特征抽取，对人工构建特征工程本文称为基于classic特征抽取，本文采用基于 embedding-lightgbm模型进行渔船类型识别，为便于比较xgboost、catboost和lightgbm 的分类效果，本文分别将特征抽取模型和分类模型进行组合对比效果。
[0071]
本应用中的船舶类型识别的实验平台是intel(r)xeon(r)cpue5-2630v4@2.20ghz (20核)和128gb内存的服务器。本发明的实验测试数据为2018年10月到2020年10月中国东海渔场内部分渔船的vms轨迹，这些轨迹用北斗卫星系统记录，时间分辨率为10min，共记录2236艘注册的渔船捕鱼活动。总数据集包括22913条轨迹，采用8:2划分训练集和测试集。其中，围网轨迹7624条，拖网轨迹7737条，刺网轨迹7552条。
[0072]
表1
[0073][0074][0075]
备注：embedding—xgboost表示基于词嵌入语义特征抽取模型和xgboost分类模型结合。
[0076]
基于东海渔船数据集对比实验结果，基于词嵌入分类模型的f1-measure、精确率和召回率均能达到0.95以上，基于经典特征分类模型的f1-measure、精确率和召回率在0.88以上。这两组对比实验证明基于词嵌入的特征提取和分类器结合方法的分类性能高于基于经典特征建模的方法。由于基于决策树分类的原理是基于特征重要性来划分所属类别，因此证明基于 embedding—lightgbm模型的分类性能的提升，不依赖于分类器的能力，而是基于词嵌入的特征抽取模型相比基于经典特征建模能够充分提取有效的特征。根
据表1所示，基于词嵌入特征抽取和基于经典特征建模的三种分类模型对比结果为三种分类模型的分类性能总体差距不大，使用lightgbm分类器模型相比其它两种分类方法性能较高，而且训练时间较低，充分证明使用lightgbm作为分类器的准确性。
[0077]
应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

技术特征：
1.一种基于语义特征向量的渔船类型识别方法，其特征在于该方法包括以下步骤：s1、数据预处理阶段：1-1采集带有渔船作业类型标记的渔船历史vms轨迹数据，将其转换为track＝{points
i
(lat，lon，speed，time，dir，type)|i＝1，2，...，n}的格式，其中track表示单艘渔船的轨迹点集合，points
i
表示第i时刻的轨迹点，lat表示纬度，lon表示经度，speed表示瞬时速度，time表示轨迹点采集时间，dir表示当前渔船朝向，n表示最大时刻，type表示渔船作业类型，包括：拖网类型、围网类型和刺网类型；1-2对步骤1-1处理后的数据采用基于船位轨迹的航迹提取算法，提取出渔船完整的出进港轨迹；1-3对步骤1-2提取出渔船的航次轨迹采用基于速度约束的渔船轨迹修复算法进行数据修复，得到经航次提取和轨迹修复的渔船轨迹数据；1-4根据步骤1-1至1-3构建多条渔船修复后航次轨迹集，表示为渔船轨迹数据集data＝{t
v
|v＝1，2，
…
，v}，其中t
v
表示第v条渔船修复后航次轨迹集，v表示渔船的数量；s2、利用基于词嵌入语义特征抽取模型对渔船轨迹数据集data进行语义特征抽取；其中基于词嵌入语义特征抽取模型包括基于经纬度的词嵌入模型、基于速度方向的词嵌入模型、基于海域网格的词嵌入模型、拼接层；其中基于经纬度词嵌入模型对经纬度进行特征抽取；基于速度方向词嵌入模型对速度、方向进行特征抽取；基于海域网格词嵌入模型对渔船经过海域进行特征抽取；s3、分类模型训练阶段：首先将s2语义特征抽取阶段得到的轨迹特征向量划分训练集和测试集；然后将训练集输入lightgbm分类器进行训练，使用测试集对lightgbm分类器进行测试；最后利用训练好的lightgbm分类器实现vms渔船轨迹识别渔船作业类型。2.如权利要求1所述的一种基于语义特征向量的渔船类型识别方法，其特征在于步骤1-2具体是：1-2-1：将港口区域抽象为一个多边形，表示为port＝{p
k
(lat，lon)|k＝1，2，...，k}，通过多边形形心公式计算港口形心坐标；其中port表示具体的港口，p
k
表示港口的边界点，k表示港口边界点顺序，k表示边界点的数量；1-2-2：对每个轨迹点根据纬度lat、经度lon获得当前渔船的位置信息，然后根据两点间距离公式计算当前位置的渔船与港口形心间的距离d
i
；若d
i
≤阈值d0，则将d
i
更新为0，反之则不变；其中阈值d0为港口区域最大外周圆的半径；1-2-3：依次遍历所有轨迹点，对每个轨迹点进行出港点与进港点识别，具体是：判断当前轨迹点points
i
的距离di是否为0；若d
i
＝0则继续判断下一时刻轨迹点的距离d
i+1
是否为0，若d
i+1
≠0则认为轨迹点points
i
的位置为出港点，若d
i+1
＝0则认为当前渔船未移动；若d
i
≠0则继续下一时刻轨迹点的距离d
i+1
是否为0，若d
i+1
＝0则认为轨迹点points
i
的位置为进港点，若d
i+1
≠0则认为当前渔船在移动状态；1-2-4：根据渔船的出港点、进港点，对渔船轨迹track进行截取，获得渔船的多条航次轨迹集合trajectory＝{trajectory
j
(points
i
(shiptrackid，lat，lon，speed，time，dir，type)i＝1，2，...，n)
|j＝1，2，
…
，m))}；其中trajectory为单艘渔船航次轨迹集合，trajectory
j
为当前渔船的第j条航次轨迹，shiptrackid表示渔船航次轨迹唯一标识id，m表示单艘渔船的航次轨迹数量。3.如权利要求2所述的一种基于语义特征向量的渔船类型识别方法，其特征在于步骤1-3具体是：1-3-1：对渔船进出港航次轨迹trajectory
j
，获取最小瞬时速度speed
min
和最大瞬时速度speed
max
以及相邻两轨迹点间的最小平均速度meanspeed
min
和最大平均速度meanspeed
max
；1-3-2：对每个轨迹点的瞬时速度判断是否落在[speed
min
，speed
max
]内，若不在则认为当前轨迹点的瞬时速度为异常值，并将该瞬时速度更新为空值，反之则认为当前轨迹点的瞬时速度为正常值，不做更新操作；1-3-3：遍历该渔船航次轨迹点集合trajectory利用半正矢公式计算步骤1-3-2处理后相邻时刻两轨迹点points
i
、points
i+1
之间的距离，然后进一步计算上述两轨迹点之间的平均速度meanspeed
(i，i+1)
；对平均速度meanspeed
(i，i+1)
判断是否落在[meanspeed
min
，meanspeed
max
]内，若不在则认为轨迹点points
i
的经度和纬度为异常值，并将该经度和纬度更新为空值，反之则认为当前轨迹点的经度和纬度为正常值，不做更新操作；1-3-4：利用多项式插值法对步骤1-3-3处理后trajectory
j
＝{points
i
(shiptrackid，lat，lon，speed，time，dir，type)|i＝1，2，...，n}中空值进行补全，获得修复后航次轨迹t_repair
j
＝{points
i
(shiptrackid，lat，lon，speed，time，dir)|i＝1，2，...，n}，进而得到修复后航次轨迹集t＝{t_repair
j
(points
i
(shiptrackid，lat，lon，speed，time，dir，type)i＝1，2，...，n)|j＝1，2，
…
，m))}；其中t_repair
j
表示修复后的某渔船第j条航次轨迹。4.如权利要求3所述的一种基于语义特征向量的渔船类型识别方法，其特征在于所述基于经纬度词嵌入模型包括geohash编码特征抽取模块、梯度编码特征抽取模块以及拼接层；所述的geohash编码特征抽取模块用于对航次轨迹进行geohash编码并抽取geohash编码特征，得到shiptrackid对应航次轨迹的分布式特征向量；具体是：(1)对渔船轨迹数据集data中各轨迹点的纬度lat和经度lon进行geohash算法编码，得到渔船经纬度的哈希编码d
hashcode
；(2)对d
hashcode
使用scikit-learn工具包中tfidfvectorizer算法进行计算，将其转化为tf-idf的特征矩阵，然后使用truncatedsvd算法对该矩阵进行文本主题分析，得到shiptrackid对应航次轨迹的哈希编码主题向量(3)对d
hashcode
使用word2vec词向量嵌入进行分布式特征向量表示，得到shiptrackid对应航次轨迹的哈希编码特征向量所述的梯度编码特征抽取模块用于对航次轨迹作经纬度梯度编码并抽取经纬度梯度编码的特征，得到shiptrackid对应航次轨迹的梯度编码主题向量具体是：(1)对渔船轨迹数据集data中每条修复后航次轨迹计算经纬度梯度，然后进行数据合并后得到渔船经纬度梯度的编码data
grad
；
(2)对data
grad
使用scikit-learn工具包中tfidfvectorizer算法进行计算，将其转化为tf-idf的特征矩阵，然后使用truncatedsvd算法对该矩阵进行文本主题分析，得到shiptrackid对应航次轨迹的梯度编码主题向量所述拼接层用于将geohash编码特征抽取模块和梯度编码特征抽取模块的输出进行拼接，得到基于经纬度词嵌入模型抽取的特征向量。5.如权利要求3所述的一种基于语义特征向量的渔船类型识别方法，其特征在于所述基于速度方向词嵌入模型对速度、方向进行特征抽取；具体是：2-2-1：对渔船轨迹数据集data中的速度speed和方向dir进行字符串编码str得到字符串编码后的轨迹d
str
＝{c
o
(shiptrackid，speed_dir)|o＝1，2，
…
，o))}，speed_dir为速度和方向的字符串拼接，o为渔船轨迹数据集的轨迹点个数；2-2-2：对d
str
使用word2vec词向量嵌入进行分布式特征向量表示，根据shiptrackid对应的渔船轨迹序列，获得对应shiptrackid的分布式特征向量6.如权利要求3所述的一种基于语义特征向量的渔船类型识别方法，其特征在于所述基于海域网格词嵌入模型对渔船经过海域进行特征抽取；具体是：2-3-1：将渔船轨迹数据集data中的lat和lon转换为墨卡托坐标，然后细粒度划分渔船经过海域为网格，并按照顺序给网格编号；2-3-2：根据单艘渔船经过的海域网格，将每条渔船航次轨迹中各轨迹点转为网格编号序列，得到各渔船行驶的子海域网格序列序列，得到各渔船行驶的子海域网格序列表示第β条渔船航次轨迹网格编号表示；2-3-3：将海域网格序列数据集data
serialize
输入word2vec词向量模型进行训练，最后根据shiptrackid得到单艘渔船的网格编码特征向量7.如权利要求3所述的一种基于语义特征向量的渔船类型识别方法，其特征在于所述拼接层用于拼接基于经纬度的词嵌入模型、基于速度方向的词嵌入模型、基于海域网格的词嵌入模型抽取的特征向量形成串联合并向量，得到基于词嵌入语义特征抽取模型抽取的特征向量；8.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。9.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。

技术总结
本发明公开了一种基于语义特征向量的渔船类型识别方法，面向于人工特征工程复杂、特征提取不充分问题。本发明提出了基于船位轨迹的航迹提取算法及基于速度约束的轨迹修复算法对历史VMS轨迹数据进行数据修复，提高数据质量；提出基于Word2Vec的语义特征抽取模型，从预处理的VMS渔船轨迹中自动化抽取渔船VMS的语义高阶特征向量，结合基于梯度提升树的LightGBM分类模型能够实现渔船作业类型的有效分类。本发明在应用到渔船作业类型识别等分类问题时，有较高的识别性能，同时，该方法应用在智慧海洋中可有效识别渔船作业类型。在智慧海洋中可有效识别渔船作业类型。在智慧海洋中可有效识别渔船作业类型。

技术研发人员：刘震袁俊峰任永坚张纪林欧东阳曾艳许洋王雷徐传奇于晓康
受保护的技术使用者：杭州电子科技大学
技术研发日：2021.11.29
技术公布日：2022/3/8

专利

最新回复(0)