一种基于分布词向量CNN网络的图像描述方法及系统与流程

专利查询2023-11-30  84


一种基于分布词向量cnn网络的图像描述方法及系统
技术领域
1.本发明涉及智能图像处理技术领域,具体而言,涉及一种基于分布词向量cnn网络的图像描述方法及系统。


背景技术:

2.在计算机视觉领域中,随着图像分类、目标检测、语义分割等基本视觉任务不断突破。人们的兴趣逐渐转向图像描述这个更复杂、更高级的视觉任务。图像描述的具体任务是生成图像中语义信息的描述性语句,因此,不仅仅需要识别和理解(指动作)图像中的相关内容,而且要以自然语言的形式对其描述。在盲人辅助系统、图像检索、智能交互系统等实际应用中,这种用图像生成对应自然语言描述的能力至关重要。但现有技术中,基本采用一些开源的图片库作为图像描述训练的对象,虽然采用的数量较多,但由于现实生活中变化状态的图像远远大于开源库内的数量,由此必然会出现图像描述不准确的情况出现,由此需要一种基于分布词向量cnn网络的图像描述方法。


技术实现要素:

3.本发明的目的在于提供一种基于分布词向量cnn网络的图像描述方法,其能够对参照库进行实时更新,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。
4.本发明的实施例是这样实现的:
5.第一方面,本技术实施例提供一种基于分布词向量cnn网络的图像描述方法,其包括:预设语言库;对所述语言库进行词向量生成处理,获取所述语言库对应的词向量集;获取训练用的每张图片语义所对应的词向量,得到语义向量集;对所述语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;利用互联网采集所述语言库内词语语义的多个相关图片;对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对所述原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;获取待处理图片;将所述待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合所述第二参照库的图片,则输出所述图片对应语义内容的图像描述。
6.在本发明的一些实施例中,利用互联网采集语言库内词语语义的多个相关图片的步骤包括:在检索程序内依次输入语言库的文字,利用搜索引擎得到输入文字相关的图片后,进行下载采集。
7.在本发明的一些实施例中,cnn网络模型采用以sobel为内核的可分离的卷积神经网络模型。
8.在本发明的一些实施例中,若分类结果不符合第二参照库内的所有图片,即非需
要的图片后的步骤包括:将非需要的图片进行删除,并标记原下载地址,当再次检索至地址后,不再进行采集。
9.在本发明的一些实施例中,获取待处理图片的步骤包括:利用摄像头或从互联网下载获取待处理图片。
10.在本发明的一些实施例中,对语言库的每个词进行识别的步骤包括,利用bert模型对语言库的每个词进行识别。
11.在本发明的一些实施例中,则输出图片对应语义内容的图像描述后的步骤包括:将待处理图片保存至对应语义内容的第二参照库中。
12.第二方面,本技术实施例提供一种基于分布词向量cnn网络的图像描述系统,其包括:预处理模块,用于预设语言库;对语言库进行词向量生成处理,获取语言库对应的词向量集;从第二参照库中获取训练用的每张图片语义所对应的词向量,得到语义向量集;对语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表,并获得固定长度的词向量;初级采集模块,用于利用互联网采集语言库内词语语义的多个相关图片;处理模块,用于对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;循环采集模块,持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;输入模块,用于获取待处理图片;判断模块,用于将待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合第二参照库的图片,则输出图片对应语义内容的图像描述。
13.第三方面,本技术实施例提供一种电子设备,包括至少一个处理器、至少一个存储器和数据总线;其中:处理器与存储器通过数据总线完成相互间的通信;存储器存储有可被处理器执行的程序指令,处理器调用程序指令以执行一种基于分布词向量cnn网络的图像描述方法。
14.第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种基于分布词向量cnn网络的图像描述方法。
15.相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
16.针对于现有技术中开源的图片库数量不够的问题,本设计利用互联网中各个网站的图片作为图片库,即先进行初次深度学习,其利用cnn网络模型进行特征选取以及分类,利用图片开源库进行训练,从而先生成一个较为准确的模型,而后持续从互联网上下载图片或利用摄像头进行拍摄图片,并进行持续性训练,对第二参照库进行实时更新,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。
附图说明
17.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
18.图1为本发明中一种基于分布词向量cnn网络的图像描述方法的流程图;
19.图2为本发明中一种基于分布词向量cnn网络的图像描述系统的流程图;
20.图3为本发明中一种电子设备的结构示意图。
21.图标:1、预处理模块;2、初级采集模块;3、处理模块;4、循环采集模块;5、输入模块;6、判断模块;7、处理器;8、存储器;9、数据总线。
具体实施方式
22.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
23.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
25.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
26.在本技术的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。
27.在本技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。
28.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
29.实施例1
30.请参阅图1,为本技术实施例提供的一种基于分布词向量cnn网络的图像描述方法,针对于现有技术中开源的图片库数量不够的问题,本设计利用互联网中各个网站的图
片作为图片库,即先进行初次深度学习,其利用cnn网络模型进行特征选取以及分类,利用图片开源库进行训练,从而先生成一个较为准确的模型,而后持续从互联网上下载图片或利用摄像头进行拍摄图片,并进行持续性训练,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。其具体实施方式如下:
31.s101:预设语言库;
32.对于需要进行描述的图像,预设需要的词语、句子或其他单个文字,将其保存至语言库,方便后续步骤引用。
33.s102:对语言库进行词向量生成处理,获取语言库对应的词向量集;获取训练用的每张图片语义所对应的词向量,得到语义向量集;
34.对于语言库内的文字信息,作为普通储存,计算机只能以一个固定的字符代表文字无法引申出其代表的含义,例如不同环境下相同的物体,由此将语言库内的文字转换成词向量,从而利用词向量的距离,为后续与图像相互对应提供了方便。
35.s103:对语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;
36.获取固定长度的词向量便于进行引用,而生成词汇表则是为了方便研发生源进行修改和验证。
37.s104:利用互联网采集语言库内词语语义的多个相关图片;
38.这已步骤为初次对图片进行处理,主要是采集互联网中一些开源的图片库,利用开源图片库得出初始的参照库。
39.s105:对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;
40.由于一个语义通常对应多个图片,故而将所有图片按照语义进行分类,并为每个语义提供一个单独的存储空间,从而达到分类的目的。
41.s106:利用cnn网络模型对原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;
42.cnn网络模型(即卷积神经网络)是一类包含卷积计算且具有深度结构的前馈神经网络;利用其在图片特征筛选和分类的优势,使得其在训练后得到第一参照库。
43.s107:持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;
44.而在开源库中进行特征筛选和分类操作后,再直接在网上采集各种图片进行训练,得到第二参照库,并其该训练一直持续,由此达到对第二参照库实时更新的目的,从而确保准确性。
45.s108:获取待处理图片;
46.s109:将待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合第二参照库的图片,则输出图片对应语义内容的图像描述。
47.将待处理图片第二参照库的对比,对符合参考库的内容输出对应的图像描述。
48.在本发明的一些实施例中,利用互联网采集语言库内词语语义的多个相关图片的步骤包括:在检索程序内依次输入语言库的文字,利用搜索引擎得到输入文字相关的图片后,进行下载采集。
49.在本发明的一些实施例中,对于训练的图片利用检索程序利用百度、谷歌等等,可以有效的筛选一定量非需要的图片,从而提高训练效率。
50.在本发明的一些实施例中,cnn网络模型采用以sobel为内核的可分离的卷积神经网络模型。
51.在本发明的一些实施例中,采用sobel算子作为内核,通常用于图像处理通过乘以向量[1,0,-1]和[1,2,1]得到相同的内核,其在图片处理中较为成熟,使得其在处理时稳定性较强。
[0052]
在本发明的一些实施例中,若分类结果不符合第二参照库内的所有图片,即非需要的图片后的步骤包括:将非需要的图片进行删除,并标记原下载地址,当再次检索至地址后,不再进行采集。
[0053]
在本发明的一些实施例中,为了避免在互联网下载过多的非需要图片占用设备内存,将非需要图片进行删除,并进行地址标注,从而在检索的过程中避免重复下载,也避免了重复训练,提高了训练效率。
[0054]
在本发明的一些实施例中,获取待处理图片的步骤包括:利用摄像头或从互联网下载获取待处理图片。
[0055]
在本发明的一些实施例中,而对于待处理的图片,本设计应用的场景可以是监控探头或其他需要进行识别的监控仪器,故而需要利用现场使用的摄像头对图片进行采集,以便更好的适应环境。
[0056]
在本发明的一些实施例中,对语言库的每个词进行识别的步骤包括,利用bert模型对语言库的每个词进行识别。
[0057]
在本发明的一些实施例中,bert是“bidirectional encoder representations from transformers”的首字母缩写,整体是一个自编码语言模型(autoencoder lm),bert相较于原来的rnn、lstm可以做到并发执行,同时提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。相较于word2vec,其又能根据句子上下文获取词义,从而避免歧义出现。
[0058]
在本发明的一些实施例中,则输出图片对应语义内容的图像描述后的步骤包括:将待处理图片保存至对应语义内容的第二参照库中。
[0059]
在本发明的一些实施例中,对于待处理图片基本是运用环境中所采集的图片,具有较强的针对性,故而将其存入第二参照库中,提高准确率。
[0060]
实施例2
[0061]
请参阅图2,为本发明提供的一种基于分布词向量cnn网络的图像描述系统,包括:预处理模块1,用于预设语言库;对语言库进行词向量生成处理,获取语言库对应的词向量集;从第二参照库中获取训练用的每张图片语义所对应的词向量,得到语义向量集;对语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表,并获得固定长度的词向量;初级采集模块2,用于利用互联网采集语言库内词语语义的多个相关图片;处理模块3,用于对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;循环采集模块4,持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;输入模块5,用于获取待处理
图片;判断模块6,用于将待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合第二参照库的图片,则输出图片对应语义内容的图像描述。
[0062]
实施例3
[0063]
请参阅图3,为本发明提供的一种电子设备,包括至少一个处理器7、至少一个存储器8和数据总线9;其中:所述处理器7与所述存储器8通过所述数据总线9完成相互间的通信;所述存储器8存储有可被所述处理器7执行的程序指令,所述处理器7调用所述程序指令以执行一种基于分布词向量cnn网络的图像描述方法。具体实现:
[0064]
预设语言库;对语言库进行词向量生成处理,获取语言库对应的词向量集;从第二参照库中获取训练用的每张图片语义所对应的词向量,得到语义向量集;对语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表,并获得固定长度的词向量;利用互联网采集语言库内词语语义的多个相关图片;对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;获取待处理图片;将待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合第二参照库的图片,则输出图片对应语义内容的图像描述。
[0065]
实施例4
[0066]
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器7执行时实现一种基于分布词向量cnn网络的图像描述方法。
[0067]
预设语言库;对语言库进行词向量生成处理,获取语言库对应的词向量集;从第二参照库中获取训练用的每张图片语义所对应的词向量,得到语义向量集;对语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表,并获得固定长度的词向量;利用互联网采集语言库内词语语义的多个相关图片;对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;获取待处理图片;将待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合第二参照库的图片,则输出图片对应语义内容的图像描述。
[0068]
其中,存储器8可以是但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
[0069]
处理器7可以是一种集成电路芯片,具有信号处理能力。该处理器7可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-
programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0070]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0071]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0072]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0073]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0074]
对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其它的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术特征:
1.一种基于分布词向量cnn网络的图像描述方法,其特征在于,包括:预设语言库;对所述语言库进行词向量生成处理,获取所述语言库对应的词向量集;获取训练用的每张图片语义所对应的词向量,得到语义向量集;对所述语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;利用互联网采集所述语言库内词语语义的多个相关图片;对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对所述原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;获取待处理图片;将所述待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合所述第二参照库的图片,则输出所述图片对应语义内容的图像描述。2.如权利要求1所述的一种基于分布词向量cnn网络的图像描述方法,利用互联网采集所述语言库内词语语义的多个相关图片的步骤包括:在检索程序内依次输入所述语言库的文字,利用搜索引擎得到输入文字相关的图片后,进行下载采集。3.如权利要求1所述的一种基于分布词向量cnn网络的图像描述方法,所述cnn网络模型采用以sobel为内核的可分离的卷积神经网络模型。4.如权利要求1所述的一种基于分布词向量cnn网络的图像描述方法,若分类结果不符合第二参照库内的所有图片,即非需要的图片后的步骤包括:将所述非需要的图片进行删除,并标记原下载地址,当再次检索至所述地址后,不再进行采集。5.如权利要求1所述的一种基于分布词向量cnn网络的图像描述方法,获取待处理图片的步骤包括:利用摄像头或从互联网下载获取待处理图片。6.如权利要求1所述的一种基于分布词向量cnn网络的图像描述方法,对所述语言库的每个词进行识别的步骤包括,利用bert模型对所述语言库的每个词进行识别。7.如权利要求1所述的一种基于分布词向量cnn网络的图像描述方法,则输出所述图片对应语义内容的图像描述后的步骤包括:将所述待处理图片保存至对应语义内容的所述第二参照库中。8.一种基于分布词向量cnn网络的图像描述系统,其特征在于,包括:预处理模块,用于预设语言库;对所述语言库进行词向量生成处理,获取所述语言库对应的词向量集;获取训练用的每张图片语义所对应的词向量,得到语义向量集;对所述语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;初级采集模块,用于利用互联网采集所述语言库内词语语义的多个相关图片;处理模块,用于对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用cnn网络模型对所述原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;
循环采集模块,持续在互联网采集图片,根据第一参照库,利用cnn网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;输入模块,用于获取待处理图片;判断模块,用于将所述待处理图片带入cnn网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合所述第二参照库的图片,则输出所述图片对应语义内容的图像描述。9.一种电子设备,其特征在于,包括至少一个处理器、至少一个存储器和数据总线;其中:所述处理器与所述存储器通过所述数据总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行如权利要求1-7任一所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结
本发明提出了一种基于分布词向量CNN网络的图像描述方法及系统,涉及智能图像处理技术领域。包括预设语言库;对语言库进行词向量生成处理获得对应的词向量集;对每个词进行识别,利用互联网采集相关图片进行分类,分类后存储至原始图片库;利用CNN网络模型进行特征提取和分类,获得第一参照库;持续采集图片,继续利用CNN网络模型对处理得到第二参照库;将图片带入CNN网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;反之则输出图片的图像描述。其能够对参照库进行实时更新,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。性。性。


技术研发人员:黄茂芹
受保护的技术使用者:广东赛昉科技有限公司
技术研发日:2021.12.14
技术公布日:2022/3/8

最新回复(0)