1.本发明涉及服务器领域,特别涉及一种安培处理器的监控方法及服务器。
背景技术:
::2.当前,服务器长期运行的稳定性是服务器的一项重要指标,一旦服务器发生故障而得不到及时有效的处理,将引起服务器停机,造成服务中断、数据丢失等事故,给用户带来严重损失。安培ampere平台服务器系统下通过demsg和messages日志记录服务器运行状态,从而帮助我们了解服务器问题并尽快恢复健康状态。3.但是,当前安培处理器作为一款最近开发的新型处理器,存在以下逻辑:除系统下正常输入poweroff或reboot命令执行关机或重启外,其它原因导致的系统关机或重启都会以bert(booterrorrecordtable,启动错误记录表)相关的硬件错误hardwareerror形式,在demsg和messages日志中被记录为unknowreboot,不会列出unknowreboot的详细原因,用户在不熟悉安培处理器时容易错误估计unknownreboot的紧急程度和重要性,造成用户恐慌。4.因此,如何提供一种解决上述技术问题的方案是目前本领域技术人员需要解决的问题。技术实现要素:5.有鉴于此,本发明的目的在于提供一种明确处理器状态、消除用户误解的安培处理器的监控方法及服务器。其具体方案如下:6.一种安培处理器的监控方法,应用于cpld,包括:7.获取安培处理器的多个状态引脚发送的状态信号;8.根据多个所述状态信号,判断所述安培处理器的工作状态;9.在工作日志中记录所述工作状态,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析。10.优选的,所述监控方法还包括:11.获取其他设备的状态引脚发送的状态信号;12.根据每个所述状态信号,判断对应的所述设备的工作状态;13.在所述工作日志中记录所有所述工作状态。14.优选的,所述设备包括开机按键、和/或psu电压监控模块、和/或bmc。15.优选的,所述开机按键的状态引脚包括当前状态引脚和触发状态引脚,所述开机按键的工作状态包括:关机状态、触发开机状态、开机状态和强制关机状态。16.优选的,所述bmc的状态引脚包括:开机按键引脚、复位按键引脚和关机按键引脚,所述bmc的工作状态包括:正常状态、控制主板关机状态、控制主板复位状态和控制主板开机状态。17.优选的,所述在工作日志中记录所述工作状态,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析的过程,包括:18.调取时钟模块的时刻在工作日志中记录所述工作状态,并将所述工作日志存储于存储器中,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析。19.优选的,所述安培处理器的状态引脚包括过温预警引脚、高温预警引脚、错误告警引脚、关机信号引脚和重启信号引脚,所述安培处理器的工作状态包括:重启状态、关机状态、异常告警状态、高温预警状态和超温预警状态。20.相应的,本技术还公开了一种服务器,包括:21.安培处理器;22.cpld,用于执行上文任一项所述安培处理器的监控方法。23.优选的,所述服务器还包括:受所述cpld监控的其他设备,所述设备包括开机按键、和/或psu电压监控模块、和/或bmc。24.优选的,所述服务器还包括:25.时钟模块,用于为所述cpld提供时刻;26.存储器,用于存储工作日志。27.本技术公开了一种安培处理器的监控方法,应用于cpld,包括:获取安培处理器的多个状态引脚发送的状态信号;根据多个所述状态信号,判断所述安培处理器的工作状态;在工作日志中记录所述工作状态,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析。本技术由cpld实现对安培处理器的监控,从而将安培处理器的工作状态记录于工作日志中便于查看调用,消除了原本安培处理器的日志不标明详细原因使用户误解的问题。附图说明28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。29.图1为本发明实施例中一种安培处理器的监控方法的步骤流程图;30.图2为本发明实施例中一种cpld与多设备连接的结构分布图;31.图3a为本发明实施例中一种psu电压监控模块的结构分布图;32.图3b为本发明实施例中一种psu电压监控模块的电压关系图。具体实施方式33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。34.当前安培处理器作为一款最近开发的新型处理器,除系统下正常输入poweroff或reboot命令执行关机或重启外,其它原因导致的系统关机或重启都会以bert相关的硬件错误hardwareerror形式,在demsg和messages日志中被记录为unknowreboot,不会列出unknowreboot的详细原因,用户在不熟悉安培处理器时容易错误估计unknownreboot的紧急程度和重要性,造成用户恐慌。35.本技术由cpld(complexprogrammablelogicdevice,复杂可编程逻辑器件)实现对安培处理器的监控,从而将安培处理器的工作状态记录于工作日志中便于查看调用,消除了原本安培处理器的日志不标明详细原因使用户误解的问题。36.本发明实施例公开了一种安培处理器的监控方法,应用于cpld,参见图1所示,该监控方法包括:37.s1:获取安培处理器的多个状态引脚发送的状态信号;38.s2:根据多个状态信号,判断安培处理器的工作状态;39.可以理解的是,安培处理器的状态引脚至少包括:过温预警引脚over_temp_n、高温预警引脚high_temp_n、错误告警引脚fault_alert、关机信号引脚shutduwn_ack和重启信号引脚reboot_ack,安培处理器的工作状态至少包括:重启状态、关机状态、异常告警状态、高温预警状态和超温预警状态。具体的,可以参照表1所示,40.表1安培处理器的状态信号与工作状态的对应关系[0041][0042]如上表所示,多个状态信号以字符串r_cpu_d[4:0]中某一位值的形式写入寄存器,若当前所有状态信号对应的r_cpu_d[4:0]是11001,可判定当前安培处理器的工作状态为正常重启状态;若当前所有状态信号对应的r_cpu_d[4:0]是11010,可判定当前安培处理器的工作状态为正常关机状态;若当前所有状态信号对应的r_cpu_d[4:0]是11100,可判定当前安培处理器的工作状态为异常告警状态,安培处理器发出异常告警;若当前所有状态信号对应的r_cpu_d[4:0]是01000状态,可判定当前安培处理器的工作状态为高温预警状态,安培处理器发出高温预警;若当前所有状态信号对应的r_cpu_d[4:0]是10000状态,可判定当前安培处理器的工作状态为超温预警状态,安培处理器发出超温预警。[0043]s3:在工作日志中记录工作状态,以便在安培处理器的系统日志出现硬件错误时调用工作日志进行对比和分析。[0044]进一步的,该步骤包括:调取时钟模块的时刻在工作日志中记录工作状态,并将工作日志存储于存储器中,以便在安培处理器的系统日志出现硬件错误时调用工作日志进行对比和分析。[0045]具体的,本实施例中安培处理器包括ampere平台altra处理器,属于平台核心器件,实施本实施例中监控方法的cpld可选用lattic公司的cpld芯片lcmxo2-7000hc-4fg484c;时钟模块可选用maxim公司ds1339实时时钟芯片,该实时时钟芯片为i2c(inter-integratedcircuit,两线式串行总线)接口,cpld通过i2c总线可以获取时钟模块上的实时时刻;存储器可选为型号为at24c02的eeprom存储器(electricallyerasableprogrammablereadonlymemory,带电可擦可编程只读存储器),存储容量为2kbits,at24c02支持i2c总线数据传送协议,cpld可通过i2c总线读写eeprom存储器数据,用于存储服务器状态信息。[0046]本技术公开了一种安培处理器的监控方法,应用于cpld,包括:获取安培处理器的多个状态引脚发送的状态信号;根据多个状态信号,判断安培处理器的工作状态;在工作日志中记录工作状态,以便在安培处理器的系统日志出现硬件错误时调用工作日志进行对比和分析。本技术由cpld实现对安培处理器的监控,从而将安培处理器的工作状态记录于工作日志中便于查看调用,消除了原本安培处理器的日志不标明详细原因使用户误解的问题。[0047]本发明实施例公开了一种具体的安培处理器的监控方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的,cpld除了监控安培处理器之外,服务器上除安培处理器外的其他设备也可由cpld监控其状态,因此,监控方法还包括:[0048]获取其他设备的状态引脚发送的状态信号;[0049]根据每个状态信号,判断对应的设备的工作状态;[0050]在工作日志中记录所有工作状态。[0051]具体的,设备至少包括开机按键、和/或psu(powersupplyunit,电源模块)电压监控模块、和/或bmc(baseboardmanagementcontroller,基板管理控制器)。[0052]进一步的,cpld与各设备的状态引脚的连接可参考图2。[0053]其中,开机按键可采用板载轻触开关,用于实现安培处理器的开机和关机,具体开机或关机的按键时长根据实际设置确定,此处可选关机为长按4s关机。开机按键的状态引脚包括当前状态引脚和触发状态引脚,开机按键的工作状态包括:关机状态、触发开机状态、开机状态和强制关机状态。可以理解的是,同一设备的所有状态信号将以字符串的形式记录,因此开机按键的当前状态信号为r_btn_d1,触发状态信号为r_btn_d0,整体状态信号对应寄存器中字符串r_btn_d[1:0],其状态信号和工作状态的对应关系如表2所示。[0054]表2开机按键的状态信号与工作状态的对应关系[0055]当前状态信号(r_btn_d1)触发状态信号(r_btn_d0)工作状态00关机状态01触发开机状态10开机状态11强制关机状态[0056]具体的,psu电压监控模块主要负责监控psu电源模块的电压输出状态,psu电压监控模块通过p12v_adr_trigger向cpld发送psu电源模块的状态信号,高电平为供电正常,低电平为欠压,低于3.3v后安培处理器无法工作。本实施例中psu电压监控模块可选采用ti公司的电压监控芯片tps3700dcr,参见图3a所示,内部参考电压vit+为400mv,ina+为电压输入端,连接psu电源模块的电压输出端p12v,outa为状态引脚p12v_adr_trigger。psu的电压输出端的电压经过电阻分压,当该电压输出端输出电压为10.396v以上时,12×10÷(249.9+10)》0.4v,p12v_adr_trigger或outa为高电平,该电压输出端输出电压低于10.396v时,12×10÷(249.9+10)《0.4v,p12v_adr_trigger或outa为低电平,其关系图如图3b所示。可以理解的是,以上仅为图3a的参数设定下的一种判断情况,具体的电路参数设置、判断情况可根据实际进行调整和修正。[0057]其中,bmc主要负责安装有安培处理器的服务器的板卡管理,控制主板开机、重启、关机等动作,同时监控服务器状态,本实施例的bmc可采用业内常见方案,例如aspeedast2500管理方案。具体的,bmc的状态引脚包括:开机按键引脚bmc_pwrbtn_out_n、复位按键引脚bmc_sysrst_out_n和关机按键引脚bmc_cpu0_shdreq_n,相应的状态信号包括开机按键信号r_bmc_d2、复位按键信号r_bmc_d1和关机按键信号r_bmc_d0,整体状态信号对应字符串r_bmc_d[2:0]位于寄存器中,bmc的工作状态包括:正常状态、控制主板关机状态、控制主板复位状态和控制主板开机状态,其状态信号和工作状态的对应关系如表3所示。[0058]表3bmc的状态信号与工作状态的对应关系[0059][0060]进一步的,在本实施例中,ampere平台服务器,即安装安培处理器的服务器,插入psu电源模块正常供电后,cpld首先监控到psu电压监控模块供电电压正常,p12v_adr_trigger将高电平传递给cpld。当人为拔掉psu电源模块的220vac供电,会触发psu电压监控模块的12v输出电压掉电,当掉到10.396v以下,cpld监控到p12v_adr_trigger为低电平,cpld读取时钟模块的时刻和p12v_adr_trigger的低电平状态存储到eeprom存储器3,作为psu拔电事件记录在工作日志中。当服务器在正常开机状态下,人为长按开机按键触发关机动作,cpld读取时钟模块的时刻和寄存器状态r_btn_d[1:0]=11存储到eeprom存储器,作为人为手动强制关机事件记录在工作日志中。当服务器在正常开机状态下,cpld监控安培处理器的多个状态引脚,当根据状态信号确定安培处理器的工作状态为重启、关机、异常告警、高温预警或超温预警,cpld读取时钟模块的时刻并将r_cpu_d[4:0]寄存器状态存储到eeprom存储器,作为安培处理器状态事件记录在工作日志中,同时将安培处理器的cpu状态传递给bmc,以便bmc及时查看cpu状态。当服务器在正常开机状态下,cpld监控bmc模块的bmc_pwrbtn_out_n、bmc_sysrst_out_n、bmc_cpu0_shdreq_n等多个信号状态,当r_bmc_d[2:0]=110/101/011状态时,cpld读取时钟模块的时刻并将r_bmc_d[2:0]寄存器状态存储到eeprom存储器,作为bmc控制服务器开机、重启和关机事件记录在工作日志。[0061]可见,本实施例为ampere平台服务器提供了psu拔电事件、人为手动强制关机事件、ampere处理器状态监控、bmc控制主板开机事件、重启事件和关机事件等等一系列事件的监控,本实施例记录并存储了ampere平台服务器上各设备的操作动作及时间,能够有效解释ampere平台服务器中demsg和messages中硬件错误事件的发生原因,从而提高ampere平台服务器长时间工作的健壮性。[0062]相应的,本技术实施例还公开了一种服务器,参见图2所示,包括:[0063]安培处理器;[0064]cpld,用于执行上文任一实施例安培处理器的监控方法。[0065]进一步的,服务器还包括:受cpld监控的其他设备,设备包括开机按键、和/或psu电压监控模块、和/或bmc。[0066]优选的,服务器还包括:[0067]时钟模块,用于为cpld提供时刻;[0068]存储器,用于存储工作日志。[0069]本实施例中通过cpld,为ampere平台服务器提供了psu拔电事件、人为手动强制关机事件、ampere处理器状态监控、bmc控制主板开机事件、重启事件和关机事件等等一系列事件的监控,本实施例记录并存储了ampere平台服务器上各设备的操作动作及时间,结合服务器中demsg和messages中硬件错误事件的发生时间和次数,能够有效解释ampere平台服务器中demsg和messages中硬件错误事件的发生原因,有利于推进服务器问题的分析和解决,从而提高ampere平台服务器长时间工作的健壮性。[0070]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0071]以上对本发明所提供的一种安培处理器的监控方法及服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12当前第1页12
技术特征:
1.一种安培处理器的监控方法,其特征在于,应用于cpld,包括:获取安培处理器的多个状态引脚发送的状态信号;根据多个所述状态信号,判断所述安培处理器的工作状态;在工作日志中记录所述工作状态,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析。2.根据权利要求1所述监控方法,其特征在于,还包括:获取其他设备的状态引脚发送的状态信号;根据每个所述状态信号,判断对应的所述设备的工作状态;在所述工作日志中记录所有所述工作状态。3.根据权利要求2所述监控方法,其特征在于,所述设备包括开机按键、和/或psu电压监控模块、和/或bmc。4.根据权利要求3所述监控方法,其特征在于,所述开机按键的状态引脚包括当前状态引脚和触发状态引脚,所述开机按键的工作状态包括:关机状态、触发开机状态、开机状态和强制关机状态。5.根据权利要求3所述监控方法,其特征在于,所述bmc的状态引脚包括:开机按键引脚、复位按键引脚和关机按键引脚,所述bmc的工作状态包括:正常状态、控制主板关机状态、控制主板复位状态和控制主板开机状态。6.根据权利要求1至5任一项所述监控方法,其特征在于,所述在工作日志中记录所述工作状态,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析的过程,包括:调取时钟模块的时刻在工作日志中记录所述工作状态,并将所述工作日志存储于存储器中,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析。7.根据权利要求6所述监控方法,其特征在于,所述安培处理器的状态引脚包括过温预警引脚、高温预警引脚、错误告警引脚、关机信号引脚和重启信号引脚,所述安培处理器的工作状态包括:重启状态、关机状态、异常告警状态、高温预警状态和超温预警状态。8.一种服务器,其特征在于,包括:安培处理器;cpld,用于执行权利要求1至7任一项所述安培处理器的监控方法。9.根据权利要求8所述服务器,其特征在于,还包括:受所述cpld监控的其他设备,所述设备包括开机按键、和/或psu电压监控模块、和/或bmc。10.根据权利要求8所述服务器,其特征在于,还包括:时钟模块,用于为所述cpld提供时刻;存储器,用于存储工作日志。
技术总结
本申请公开了一种安培处理器的监控方法及服务器,应用于CPLD,包括:获取安培处理器的多个状态引脚发送的状态信号;根据多个所述状态信号,判断所述安培处理器的工作状态;在工作日志中记录所述工作状态,以便在所述安培处理器的系统日志出现硬件错误时调用所述工作日志进行对比和分析。本申请由CPLD实现对安培处理器的监控,从而将安培处理器的工作状态记录于工作日志中便于查看调用,消除了原本安培处理器的日志不标明详细原因使用户误解的问题。题。题。
技术研发人员:张世强 闫波 李岩
受保护的技术使用者:浪潮(山东)计算机科技有限公司
技术研发日:2021.11.26
技术公布日:2022/3/8