本发明涉及简历图像识别,尤其涉及一种简历关键信息提取方法、系统及设备。
背景技术:
1、在招聘过程中,招聘公司需要通过人工筛选大量简历,通常的简历大多是通过图像形式发送,因而需要一种能够识别简历图像中的关键信息的方法。
2、目前,识别简历图像的方法大多是通过人眼识别,也即,招聘公司在接收到大量的简历之后,通过人工一个一个核查简历,并挑选出符合招聘公司的对应岗位的专业及院校,同时再通过人工记录简历图像中的信息。
3、上述方法虽然能够实现对大量简历的筛选,但是在人工记录过程中,容易出现信息识别错误,且耗费大量人力,因此需要一种更智能的、能够自动识别简历图像中的数据的方法。
技术实现思路
1、本发明提供一种简历关键信息提取方法、系统及设备,其主要目的在于从简历图像中提取关键信息并根据关键信息将简历发送至符合条件的匹配公司。
2、为实现上述目的,本发明提供的一种简历关键信息提取方法,包括:
3、接收简历图像,对简历图像执行灰度处理及校正操作,得到初始图像,基于预构建的简历模版及初始图像获取初始图像的标识点坐标集,其中,所述标识点坐标集中包括多个待填坐标集,基于初始图像从所述标识点坐标集中依次提取待填坐标集,并对所提取的待填坐标集均执行如下操作:
4、获取所提取的待填坐标集对应的待填窗口,并确认出所述待填窗口的关键字标识,获取所提取的待填窗口的像素总和,基于像素总和确认所述待填窗口已填写后,利用预构建的文字分割方法划分所述待填窗口,得到关键字图像序列;
5、利用预构建的文字识别方法识别所述关键字图像序列,得到关键文字,利用关键字标识对所述关键文字执行标识操作,得到单位关键数据;
6、汇总单位关键数据,得到简历图像对应的简历信息数据,基于简历信息数据获取所述简历图像的匹配公司集;
7、确认所述匹配公司集不为空集后,从所述匹配公司集中依次提取匹配公司,并对所提取的匹配公司均执行如下操作:
8、获取所提取的匹配公司的接收单元,将简历图像发送至所述接收单元,基于所述接收单元确认接收简历图像后,完成简历图像的简历关键信息提取。
9、可选的,所述对简历图像执行灰度处理及校正操作,得到初始图像,包括:
10、基于简历图像获取多个像素,从所述多个像素中依次提取像素,并对所提取的像素执行如下操作:
11、获取所提取像素的红色通道值、绿色通道值及蓝色通道值,将所述红色通道值、绿色通道值及蓝色通道值输入至预构建的灰度转化公式后,得到灰度值,将所述灰度值赋值给所提取的像素,得到灰度像素;
12、汇总灰度像素,得到灰度图像;
13、对所述灰度图像执行校正操作,得到初始图像。
14、可选的,所述对所述灰度图像执行校正操作,得到初始图像,包括:
15、获取灰度图像对应的灰度图像坐标系,基于灰度图像坐标系获取灰度图像的图像纵轴,基于图像纵轴对所述灰度图像执行垂直投影操作,得到多个行边界集,从所述多个行边界集中依次提取行边界集,并对所提取的行边界集均执行如下操作:
16、基于所提取的行边界集拟合上边界斜率,比较所述上边界斜率与预设的斜率阈值的大小;
17、若上边界斜率大于斜率阈值,则获取所述上边界斜率对应的行文字图像,对所述行文字图像执行校正操作,得到校正后行图像;
18、否则,获取所述上边界斜率对应的行文字图像,并确认所述行文字图像为无需校正行图像;
19、汇总校正后行图像,得到校正后行图像集,汇总无需校正行图像,得到原始行图像集;
20、基于校正后行图像集及原始行图像集构建第一校正图后,根据所述第一校正图像获取校正数;
21、比较所述校正数与预设的校正次数阈值的大小,若所述校正数大于校正次数阈值,则确认所述校正数对应的第一校正图像为初始图像;
22、否则,确认所述第一校正图像为灰度图像,并返回所述获取灰度图像对应的灰度图像坐标的步骤,直至所述校正后行图像集为空集或所述校正数大于校正次数阈值后,得到初始图像。
23、可选的,所述基于所提取的行边界集拟合上边界斜率,包括:
24、获取行边界集中的多个行上边界像素,从所述多个行上边界像素中依次提取每一个行上边界像素的像素横坐标,得到像素横坐标集,对像素横坐标集执行线性拟合操作,得到上边界直线,基于所述上边界直线计算上边界斜率。
25、可选的,所述获取所提取的待填窗口的像素总和,基于像素总和确认所述待填窗口已填写后,包括:
26、利用预构建的二值化法对所述待填窗口执行二值化操作,得到二值窗口图像,获取二值窗口图像的多个像素值,根据所述多个像素值计算像素总和;
27、比较所述像素总和与预设的总和阈值的大小;
28、若所述像素总和小于等于总和阈值,则确认所述待填窗口未填写,对所述待填窗口执行未填标识操作后,得到未填标识窗口,基于所述未填标识窗口确认所述待填窗口已填写;
29、若所述像素总和大于总和阈值,则确认所述待填窗口已填写。
30、可选的,所述利用预构建的文字分割方法划分所述待填窗口,得到关键字图像序列,包括:
31、获取所述待填窗口的二值窗口图像,基于二值窗口图像获取二值坐标系,基于二值坐标系获取二值纵轴,根据二值纵轴对所述二值窗口图像执行垂直投影操作,得到二值行像素集;
32、划分所述二值行像素集,得到多个单位行像素集;
33、从所述多个单位行像素集中依次提取单位行像素集,并对所提取的单位行像素集均执行如下操作:
34、基于所提取的单位行像素集获取二值行图像,基于二值坐标系获取二值横轴,基于二值横轴对二值行图像执行垂直投影操作,得到二值纵像素集,利用预构建的字符划分方法划分所述二值纵像素集,得到关键字图像;
35、汇总关键字图像,得到关键字图像序列。
36、可选的,所述利用预构建的二值化法对所述待填窗口执行二值化操作,得到二值窗口图像,包括:
37、基于待填窗口获取灰度级别集,从所述灰度级别集中依次提取灰度级别值,并对所提取的灰度级别值均执行如下操作:
38、从所述灰度级集中剔除所提取的灰度级别值,得到待分灰度值集,确认所提取的灰度级别值对应的一个或多个像素为一类像素后,从所述待分灰度值集中依次提取待分灰度值,并对所提取的待分灰度值均执行如下操作:
39、比较所提取的待分灰度值与所提取的灰度级别值的大小;
40、若所提取的待分灰度值小于等于所提取的灰度级别值,则将所提取的待分灰度值对应的一个或多个像素确认为一类像素,否则,将所提取的待分灰度值对应的一个或多个像素确认为二类像素;
41、分别汇总一类像素及二类像素,得到一类像素集及二类像素集,基于一类像素集及二类像素集分别计算一类像素概率及二类像素概率,其中,所述一类像素概率为:
42、
43、其中,表示一类像素概率,表示待分灰度值的个数,表示待分灰度值的对应的像素的个数,表示待填窗口的像素总个数;
44、基于一类像素概率及二类像素概率计算所提取的灰度级别值的最大类间方差,其中,所述最大类间方差的计算公式为:
45、
46、其中,表示最大类间方差,表示一类像素概率,表示二类像素概率,表示一类像素集中的像素的灰度值的均值,表示待填窗口对应的所有像素的灰度值的均值,表示二类像素集中的像素的灰度值的均值;
47、汇总最大类间方差,得到最大类间方差集,基于最大类间方差集确认出最优划分阈值,根据所述最优划分阈值对所述待填窗口执行二值化操作,得到二值窗口图像。
48、可选的,所述基于简历信息数据获取所述简历图像的匹配公司集,包括:
49、构建简历匹配单元;
50、基于所述简历信息数据提取院校数据及专业数据,基于所述院校数据及专业数据获取院校代码及专业代码,根据院校代码及专业代码计算待匹配散列值,将所述待匹配散列值输入至简历匹配单元,得到匹配公司集。
51、可选的,所述构建简历匹配单元,包括:
52、获取匹配公司集,从匹配公司集中依次提取匹配公司,并对所提取的匹配公司均执行如下操作:
53、获取所提取的匹配公司的目标专业集,从所述目标专业集中依次提取目标专业,并对所提取的目标专业均执行如下操作:
54、获取所提取的目标专业对应的目标院校集,从所述目标院校集中依次提取目标院校,并对所提取的目标院校均执行如下操作:
55、基于所提取的目标院校、所提取的目标专业及所提取的匹配公司构建单位模版划分规则,根据所述单位模版划分规则构建招聘标识码;
56、汇总招聘标识码,得到信息分类库,利用所述信息分类库构建简历匹配单元。
57、为实现上述目的,本发明还提供一种简历关键信息提取系统,包括:
58、图像预处理模块,用于接收简历图像,对简历图像执行灰度处理及校正操作,得到初始图像;
59、单位关键数据获取模块,用于基于预构建的简历模版及初始图像获取初始图像的标识点坐标集,其中,所述标识点坐标集中包括多个待填坐标集,基于初始图像从所述标识点坐标集中依次提取待填坐标集,并对所提取的待填坐标集均执行如下操作:获取所提取的待填坐标集对应的待填窗口,并确认出所述待填窗口的关键字标识,获取所提取的待填窗口的像素总和,基于像素总和确认所述待填窗口已填写后,利用预构建的文字分割方法划分所述待填窗口,得到关键字图像序列,利用预构建的文字识别方法识别所述关键字图像序列,得到关键文字,利用关键字标识对所述关键文字执行标识操作,得到单位关键数据;
60、匹配公司获取模块,用于汇总单位关键数据,得到简历图像对应的简历信息数据,基于简历信息数据获取所述简历图像的匹配公司集;
61、信息发送模块,用于确认所述匹配公司集不为空集后,从所述匹配公司集中依次提取匹配公司,并对所提取的匹配公司均执行如下操作:获取所提取的匹配公司的接收单元,将简历图像发送至所述接收单元,基于所述接收单元确认接收简历图像后,完成简历图像的简历关键信息提取。
62、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
63、存储器,存储至少一个指令;及
64、处理器,执行所述存储器中存储的指令以实现上述所述的简历关键信息提取方法。
65、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的简历关键信息提取方法。
66、本发明为解决背景技术所述问题,本发明接收简历图像,对简历图像执行灰度处理及校正操作,得到初始图像,本发明对简历图像进行灰度化操作,便于校正处理。当简历图像中的字出现歪斜和扭曲时,会影响文字识别的准确性,校正的目的是为了更容易地识别出简历图像中的信息,因而本发明对简历图像进行逐行校正。基于预构建的简历模版及初始图像获取初始图像的标识点坐标集,基于初始图像从所述标识点坐标集中依次提取待填坐标集,并对所提取的待填坐标集均执行如下操作:获取所提取的待填坐标集对应的待填窗口,并确认出所述待填窗口的关键字标识,获取所提取的待填窗口的像素总和,基于像素总和确认所述待填窗口已填写后,利用预构建的文字分割方法划分所述待填窗口,得到关键字图像序列,利用预构建的文字识别方法识别所述关键字图像序列,得到关键文字,利用关键字标识对所述关键文字执行标识操作,得到单位关键数据,本发明对每一个待填窗口进行检测,由于已经得到初始图像,故相比于直接提取文字发现待填窗口未填写后,直接利用像素总和进行是否填写的判断,能够更快地判断待填窗口是否填写。汇总单位关键数据,得到简历图像对应的简历信息数据,基于简历信息数据获取所述简历图像的匹配公司集,确认所述匹配公司集不为空集后,从所述匹配公司集中依次提取匹配公司,并对所提取的匹配公司均执行如下操作:获取所提取的匹配公司的接收单元,将简历图像发送至所述接收单元,基于所述接收单元确认接收简历图像后,完成简历图像的简历关键信息提取。本发明从简历信息中提取出了院校和专业,并根据院校和专业将专利图像发送至简历匹配单元,利用简历匹配单元中的数据将简历图像中对应的专业及院校与匹配公司所期望的院校与专业进行匹配,最后将简历图像发送至匹配公司集中的每一个匹配公司,也即,本发明实施例能够从简历图像中提取专业及院校,并将符合匹配公司招聘期望的简历图像发送至匹配公司的接收单元,既便于求职者发送简历,也有利于匹配公司接收简历。因此,本发明从简历图像中提取关键信息并根据关键信息将简历发送至符合条件的匹配公司。
1.一种简历关键信息提取方法,其特征在于,所述方法包括:
2.如权利要求1所述的简历关键信息提取方法,其特征在于,所述对简历图像执行灰度处理及校正操作,得到初始图像,包括:
3.如权利要求2所述的简历关键信息提取方法,其特征在于,所述对所述灰度图像执行校正操作,得到初始图像,包括:
4.如权利要求3所述的简历关键信息提取方法,其特征在于,所述获取所提取的待填窗口的像素总和,基于像素总和确认所述待填窗口已填写后,包括:
5.如权利要求4所述的简历关键信息提取方法,其特征在于,所述利用预构建的文字分割方法划分所述待填窗口,得到关键字图像序列,包括:
6.如权利要求5所述的简历关键信息提取方法,其特征在于,所述利用预构建的二值化法对所述待填窗口执行二值化操作,得到二值窗口图像,包括:
7.如权利要求1所述的简历关键信息提取方法,其特征在于,所述基于简历信息数据获取所述简历图像的匹配公司集,包括:
8.如权利要求7所述的简历关键信息提取方法,其特征在于,所述构建简历匹配单元,包括:
9.一种简历关键信息提取系统,其特征在于,所述系统包括:
10.一种电子设备,所述电子设备包括: