声音处理系统以及声音处理方法与流程

1.本发明涉及声音处理系统以及声音处理方法。

背景技术：

2.近年来，已知一种能够识别用户的声音并执行与该声音对应的规定的命令的声音处理系统。例如，当资料通过规定的应用显示在显示装置上时，在用户发出指示使该资料的页面翻页(前进)的声音的情况下，声音处理系统根据该声音执行使该资料的页面翻页的命令。
3.在上述声音处理系统中，以往，提出了在声音识别失败的情况下，一览显示能够声音识别的声音命令的技术。
4.但是，在现有的技术中，用户难以在声音识别之前的阶段掌握能够声音识别的声音命令。另外，用户难以在显示装置显示的操作画面中掌握能够通过上述声音命令操作的部分。这样，在现有的声音处理系统中，产生通过声音命令进行操作的便利性差的问题。

技术实现要素：

5.本发明的目的在于，提供一种能够使通过声音命令的操作的便利性提升的声音处理系统、声音处理方法以及声音处理程序。
6.本发明的一方式涉及的声音处理系统为基于用户的声音执行规定的命令的声音处理系统，其包括：显示处理部，其显示所述用户的操作对象即操作对象应用的操作画面；辅助信息提示部，其将针对所述操作对象应用的操作辅助信息与所述操作画面相关联地进行提示；声音接收部，其接收所述用户的声音；命令确定部，其基于由所述声音接收部接收的所述声音，确定针对所述操作对象应用的第一命令；以及命令执行部，其对所述操作对象应用执行由所述命令确定部确定的所述第一命令。
7.本发明的另一方式涉及的声音处理方法为基于用户的声音执行规定的命令的声音处理方法，其使一个或多个处理器执行：显示步骤，显示所述用户的操作对象即操作对象应用的操作画面；辅助信息提示步骤，将针对所述操作对象应用的操作辅助信息与所述操作画面相关联地进行提示；声音接收步骤，接收所述用户的声音；命令确定步骤，基于由所述声音接收部接收的所述声音，确定针对所述操作对象应用的第一命令；以及命令执行步骤，对所述操作对象应用执行由所述命令确定部确定的所述第一命令。
8.本发明的目的在于，提供一种能够使通过声音命令的操作的便利性提升的声音处理系统以及声音处理方法。
9.本说明书适当地参照附图，通过使对以下详细说明中记载的概念进行总结的内容简略化的方式来进行介绍。本说明书的意图并不是限定权利要求中记载的主题的重要特征和本质特征，此外，意图也不是限定权利要求中记载的主题的范围。此外，在权利要求中记载的对象，并不限定于解决本发明中任意部分中记载的一部分或全部缺点的实施方式。
附图说明
1.图1是示出本发明的实施方式涉及的声音处理系统的构成的功能框图。
2.图2是示出本发明的实施方式涉及的声音处理系统中使用的命令信息的一个示例的图。
3.图3是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
4.图4是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
5.图5是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
6.图6是用于说明本发明的实施方式涉及的声音处理系统中的声音处理的步骤的一个示例的流程图。
7.图7是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
8.图8是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
9.图9是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
10.图10是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
11.图11是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
12.图12是示出本发明的实施方式涉及的声音处理系统中显示于显示装置的显示画面的一个示例的图。
具体实施方式
13.以下参照附图说明本发明的实施方式。此外，以下的实施方式只是使本发明具体化的一个示例，并不具有限定本发明的技术范围的性质。
14.[声音处理系统100]图1是表示本发明的实施方式涉及的声音处理系统的概略构成的图。声音处理系统100包括声音处理装置1、云服务器2和显示装置3。声音处理装置1是包括扬声器13和麦克风14的麦克风扬声器装置，例如ai扬声器、智能扬声器等。声音处理装置1、云服务器2和显示装置3经由网络n1相互连接。网络n1是因特网、lan、wan或公共电话线等的通信网。云服务器2例如由一台或多台数据服务器(虚拟服务器)构成。此外，云服务器2可以被替换为一台物理服务器。声音处理系统100可以基于用户的声音执行规定的命令。
[0015]
[声音处理装置1]如图1所示，声音处理装置1包括控制部11、存储部12、扬声器13、麦克风14以及通信接口15等。声音处理装置1例如配置在桌子上，经由麦克风14获取用户的声音，或者从扬声器13向该用户输出声音。
[0016]
通信接口15是用于通过有线或无线将声音处理装置1连接到网络n1，并且经由网络n1在与其他设备(例如云服务器2、显示装置3)之间执行按照规定的通信协议的数据通信的通信接口。此外，通信接口15也可以是能够实现视频会议系统(后述)的通信接口。
[0017]
存储部12是存储各种信息的闪存等非易失性的存储部。另外，存储部12中存储有用于使控制部11执行后述的声音处理(参照图6)的声音处理程序等的控制程序。例如，上述声音处理程序从云服务器2分发并被存储。另外，上述声音处理程序非易失性地存储在cd或dvd等的计算机可读取的记录介质中，且由声音处理装置1具备的cd驱动器或dvd驱动器等的读取装置(未图示)读取并存储到存储部12中。
[0018]
控制部11具有cpu、rom以及ram等的控制设备。上述cpu是执行各种运算处理的处理器。上述rom预先存储用于使上述cpu执行各种运算处理的bios和os等的控制程序。上述ram存储各种信息，且作为上述cpu执行的各种处理的临时存储存储器(作业区域)使用。并且，控制部11通过由上述cpu执行预先存储在上述rom或存储部12中的各种控制程序来控制声音处理装置1。
[0019]
具体而言，控制部11包括声音接收部111、声音判断部112、声音发送部113等各种处理部。此外，控制部11通过上述cpu执行根据上述控制程序的各种处理而作为上述各种处理部发挥功能。另外，控制部11所包含的一部分或者全部的处理部也可以由电子电路构成。另外，上述声音处理程序也可以是用于使多个处理器作为上述各种处理部发挥功能的程序。
[0020]
声音接收部111接收利用声音处理装置1的用户发出的声音。声音接收部111是本发明的声音接收部的一个示例。例如，用户发出用于声音处理装置1开始受理声音命令的特定词(也称为启动词、唤醒词。)的声音、指示声音处理装置1的各种声音命令的声音(命令声音)等。声音接收部111接收用户发出的各种声音。
[0021]
声音判断部112基于由声音接收部111接收到的上述声音，判断该声音是否包含有上述特定词。例如，声音判断部112对由声音接收部111接收到的上述声音进行声音识别并将其转换成文本数据。并且，声音判断部112判断在文本数据的开头是否包含有上述特定词。
[0022]
声音发送部113基于声音判断部112的判断结果，执行由声音接收部111接收的上述声音的发送处理。具体而言，在由声音判断部112判断为在由声音接收部111接收到的上述声音中包含上述特定词的情况下，声音发送部113将包含在上述声音中并接着上述特定词的关键词(命令用关键词)的文本数据发送到云服务器2。另一方面，在由声音判断部112判断为在由声音接收部111接收到的上述声音中不包含上述特定词的情况下，声音发送部113不将该声音发送到云服务器2。由此，由于在发出了上述特定词的情况下，将上述命令用关键词发送到云服务器2，因此能够避免将不包含上述特定词的通常的会话的声音误发送到云服务器2。
[0023]
[云服务器2]如图1所示，云服务器2包括控制部21、存储部22、通信接口23等。
[0024]
通信接口23是用于通过有线或无线将云服务器2连接到网络n1，并且经由网络n1在与其他设备(例如声音处理装置1、显示装置3)之间执行按照规定的通信协议的数据通信的通信接口。
[0025]
存储部22是存储各种信息的闪存等非易失性的存储部。另外，存储部22中存储有用于使控制部21执行后述的声音处理(参照图6)的声音处理程序等的控制程序。例如，上述声音处理程序非易失性地存储在cd或dvd等的计算机可读取的记录介质中，且由云服务器2具备的cd驱动器或dvd驱动器等的读取装置(未图示)读取并存储到存储部22中。另外，存储部22中存储有从声音处理装置1接收的上述命令用关键词的文本数据。
[0026]
另外，存储部22存储有命令信息。图2示出了命令信息d1的一个示例。命令信息d1中，相互关联地登记有操作对象应用、声音命令、效果等信息。上述操作对象应用是用户在显示装置3中进行操作的应用。上述操作对象应用在云服务器2中动作，既可以受理针对显示装置3的操作，也可以安装于显示装置3而动作。在本实施方式中，作为上述操作对象应用，登记有：开始、结束执行与用户的声音相应的声音命令的声音处理的“声音应用”、以滑动形式可显示、编辑各种资料的“power point”(注册商标)、能够通过触摸笔等写入触摸面板的“pensoft”。
[0027]
上述声音命令是能够在声音处理系统100中执行的命令，并针对每个上述操作对象应用进行了登记。上述声音命令与上述命令用关键词对应。上述效果是表示由上述声音命令执行的动作内容的信息。例如，在显示装置3上通过“power point”显示资料的第一页的情况下，当用户发出“move to next page(移至下一页)”的声音命令(命令用关键词)时，声音处理系统100执行该声音命令，从而在显示装置3显示上述资料的第二页。
[0028]
此外，作为其他实施方式，命令信息d1的信息的一部分或全部可以存储在声音处理装置1以及显示装置3中的任一个中，也可以分散存储在这些多个装置中。另外，作为其他实施方式，上述信息可以存储在能够从声音处理系统100访问的服务器中。在该情况下，声音处理系统100也可以从上述服务器获取上述信息，执行后述的声音处理(参照图6)等各处理。
[0029]
控制部21具有cpu、rom以及ram等的控制设备。上述cpu是执行各种运算处理的处理器。上述rom预先存储用于使上述cpu执行各种运算处理的bios和os等的控制程序。上述ram存储各种信息，且作为上述cpu执行的各种处理的临时存储存储器(作业区域)使用。并且，控制部21通过由上述cpu执行预先存储在上述rom或存储部22中的各种控制程序来控制云服务器2。
[0030]
如图1所示，控制部21包括声音接收部211、命令确定部212、命令处理部213等各种处理部。此外，控制部21通过上述cpu执行根据上述控制程序的各种处理而作为上述各种处理部发挥功能。另外，控制部21所包含的一部分或者全部的处理部也可以由电子电路构成。此外，上述控制程序也可以是用于使多个处理器作为上述处理部发挥功能的程序。
[0031]
声音接收部211接收与从声音处理装置1发送的声音命令对应的上述命令用关键词。上述命令用关键词是继在声音处理装置1接收的声音的文本数据的开头所包含的特定词之后的词(文本数据)。具体而言，当声音处理装置1检测到上述特定词并且将上述命令用关键词发送到云服务器2时，云服务器2接收该命令用关键词。
[0032]
命令确定部212基于通过声音接收部211接收到的上述命令用关键词来确定声音命令。命令确定部212是本发明的命令确定部212的一个示例。例如，命令确定部212参照命令信息d1(参照图2)，确定与上述命令用关键词对应的声音命令。在用户向上述操作对象应用发出与规定的声音命令对应的上述命令用关键词的情况下，命令确定部212基于上述命
令用关键词确定针对上述操作对象应用的声音命令(相当于本发明的第一命令)。命令确定部212是本发明的命令确定部的一个示例。
[0033]
在本实施方式中，在命令信息d1中预先登记有多个上述声音命令，并且构成为从命令信息d1中确定与上述命令用关键词一致的上述声音命令，但声音命令的确定方法不限于此。例如，命令确定部212基于上述命令用关键词中包含的规定的用语、上述命令用关键词整体的语句、语法等，解释用户的指示内容的意思并确定上述声音命令。例如，命令确定部212也可以使用词素分析、语法分析、语义分析、机器学习等公知的方法，从上述命令用关键词确定上述声音命令。
[0034]
命令处理部213将由命令确定部212确定的上述声音命令的信息存储在与显示装置3对应的命令存储区域(队列)中。例如，存储部22包括与显示装置3对应的一个或多个命令存储区域。此处，存储部22包含有与显示装置3对应的队列k1。此外，在声音处理系统100中包括多个显示装置3的情况下，也可以在存储部22中存储每个显示装置3的队列。
[0035]
例如，命令处理部213将由命令确定部212确定的声音命令“move to next page”的信息存储在与显示装置3对应的队列k1中。
[0036]
存储在队列k1中的数据(声音命令)由对应于队列k1的显示装置3取出，显示装置3执行上述声音命令。
[0037]
[显示装置3]如图2所示，显示装置3包括控制部31、存储部32、操作部33、显示部34、通信接口35等。
[0038]
操作部33是接受显示装置3的用户的操作的鼠标、键盘或触摸面板等。显示部34是显示各种信息的液晶显示器或有机el显示器等显示面板。操作部33和显示部34也可以是一体形成的用户接口。
[0039]
通信接口35是用于通过有线或无线将显示装置3连接到网络n1，并且经由网络n1在与其他设备(例如声音处理装置1、云服务器1)之间执行按照规定的通信协议的数据通信的通信接口。
[0040]
存储部32是存储各种信息的闪存等非易失性的存储部。另外，存储部32中存储有用于使控制部31执行后述的声音处理(参照图6)的声音处理程序等的控制程序。另外，上述声音处理程序非易失性地存储在cd或dvd等的计算机可读取的记录介质中，且由显示装置3具备的cd驱动器或dvd驱动器等的读取装置(未图示)读取并存储到存储部32中。
[0041]
控制部31具有cpu、rom以及ram等的控制设备。上述cpu是执行各种运算处理的处理器。上述rom预先存储用于使上述cpu执行各种运算处理的bios和os等的控制程序。上述ram存储各种信息，且作为上述cpu执行的各种处理的临时存储存储器(作业区域)使用。并且，控制部31通过由上述cpu执行预先存储在上述rom或存储部32中的各种控制程序来控制显示装置3。
[0042]
具体而言，控制部31包括操作受理部311、显示处理部312、命令获取部313、命令执行部314、辅助信息提示部315等各种处理部。此外，控制部31通过上述cpu执行根据上述控制程序的各种处理而作为上述各种处理部发挥功能。另外，控制部31所包含的一部分或者全部的处理部也可以由电子电路构成。此外，上述控制程序也可以是用于使多个处理器作为上述处理部发挥功能的程序。
[0043]
操作受理部311受理用户的各种操作。具体而言，操作受理部311接受用户对操作部33的操作。例如，操作受理部311受理使规定的应用(操作对象应用等)启动的操作、针对根据上述操作对象应用动作的操作画面的操作、打开规定的文件的操作等。另外，操作受理部311从用户受理请求提示后述的操作辅助信息的操作。
[0044]
显示处理部312使显示部34显示各种信息。例如，显示处理部312使显示部34显示作为用户的操作对象的上述操作对象应用的操作画面图3和图4示出显示于显示部34的上述操作画面的一个示例。在图3所示的示例中，显示有“声音应用”的操作对象应用ap1的操作画面和“power point”的操作对象应用ap2的操作画面。另外，在图4所示的示例中，显示有操作对象应用ap1的操作画面、操作对象应用ap2的操作画面和“pensoft”的操作对象应用ap3的操作画面。
[0045]
另外，在操作对象应用ap1的操作画面中显示有可显示的多个文件f1的一览。用户能够通过声音等从上述一览中指定期望的文件。另外，在操作对象应用ap1的操作画面中显示有用于请求上述操作辅助信息的提示的操作按钮b1。用户在请求上述操作辅助信息的提示的情况下，通过手指、触摸笔、鼠标等选择(按下)操作按钮b1。
[0046]
命令获取部313获取存储在云服务器2的命令存储区域(队列k1)中的声音命令。具体而言，命令获取部313监视与显示装置3对应的队列k1，若在队列k1中存储有声音命令，则获取该声音命令。例如，命令获取部313在操作按钮b1被按下的情况下，向队列k1定期(例如每5秒)进行询问来获取声音命令。此外，云服务器2的命令处理部213可以将与上述声音命令相关的数据发送到显示装置3，且命令获取部313获取该声音命令。
[0047]
命令执行部314对上述操作对象应用执行由云服务器2的命令确定部212确定的上述声音命令。命令执行部314是本发明的命令执行部的一个示例。具体而言，命令执行部314执行由命令获取部313获取的上述声音命令。例如，命令执行部314执行命令获取部313从队列k1获取到的声音命令。
[0048]
例如，在显示装置3的显示部34上通过“power point”显示资料的第一页的情况下，当用户发出“move to next page”的声音命令(命令用关键词)时，命令执行部314执行命令获取部313从队列k1获取到的该声音命令。由此，在显示装置3的显示部34上显示上述资料的第二页。
[0049]
此处，在图3和图4所示的各操作画面中，用户难以一目了然地掌握可通过声音命令来操作哪个上述操作对象应用的操作画面，或者能够操作上述操作画面的声音命令是什么等。
[0050]
因此，辅助信息提示部315对操作上述操作画面的用户提示辅助用户操作的信息(操作辅助信息)。具体而言，辅助信息提示部315将针对上述操作对象应用的上述操作辅助信息与上述操作画面相关联地进行提示。另外，辅助信息提示部315也可以在操作受理部311从用户受理了请求提示上述操作辅助信息的操作的情况下，提示上述操作辅助信息。例如，也可以在用户按下了图4所示的操作画面的操作按钮b1的情况下，辅助信息提示部315提示上述操作辅助信息。另外，例如，也可以在用户发出开始声音处理的声音且云服务器2的声音接收部211接收到该声音的情况下，辅助信息提示部315提示上述操作辅助信息。辅助信息提示部315是本发明的辅助信息提示部的一个示例。
[0051]
图5示出包括上述操作辅助信息的上述操作画面的一个示例。另外，图5示出与图4
的操作画面对应的上述操作辅助信息。辅助信息提示部315将上述操作辅助信息与上述操作画面相关联地进行提示，该操作辅助信息对应于针对上述操作对象应用的一个或多个命令。例如，如图5所示，辅助信息提示部315将与针对“声音应用”的操作对象应用apl的声音命令对应的操作辅助信息h1与操作对象应用apl的操作画面相关联地进行提示。另外，辅助信息提示部315将与针对“power point”的操作对象应用ap2的声音命令对应的操作辅助信息h2与操作对象应用ap2的操作画面相关联地进行提示。另外，辅助信息提示部315将与针对“pensoft”的操作对象应用ap3的声音命令对应的操作辅助信息h3与操作对象应用ap3的操作画面相关联地进行提示。此外，操作辅助信息h1、h2、h3中的每一个由对话框目标图像和上述声音命令的文本信息构成。辅助信息提示部315使各操作辅助信息h1以至少一部分与操作对象应用ap1的操作画面重叠的方式显示，使各操作辅助信息h2以至少一部分与操作对象应用ap2的操作画面重叠的方式显示，使各操作辅助信息h3以至少一部分与操作对象应用ap3的操作画面重叠的方式显示。另外，在针对上述操作画面存在多个上述操作辅助信息的情况下，辅助信息提示部315使多个上述操作辅助信息并列显示。
[0052]
此外，当用户再次按下操作按钮b1时，辅助信息提示部315也可以删除(不显示)所有的操作辅助信息。
[0053]
根据该构成，例如，用户可以一眼就掌握操作对象应用ap1、ap2、ap3的各操作画面是可操作的，并且可以一眼就掌握在各操作画面上可执行的声音命令的种类(内容)。
[0054]
[声音处理]以下，参照图6说明由声音处理装置1的控制部11、云服务器2的控制部21以及显示装置3的控制部31执行的声音处理的步骤的一个示例。
[0055]
此外，本发明可以作为执行上述声音处理所包含的一个或多个步骤的声音处理方法的发明来理解。另外，也可以适当地省略此处说明的上述声音处理中包含的一个或多个步骤。另外，在产生同样的作用效果的范围内，上述声音处理中的各步骤的执行顺序也可以不同。并且，此处以通过控制部11、21、31执行上述声音处理中的各步骤的情况为例进行说明，但在其他实施方式中，也可以由一个或多个处理器分散执行上述声音处理中的各步骤。
[0056]
此处，例如，在显示装置3的显示部34显示图4所示的各操作画面，变为用户能够通过声音操作各操作对象应用的操作画面的状态。在步骤s11中，控制部31判断在显示装置3中是否存在用户可操作的上述操作对象应用。在存在上述操作对象应用的情况下(s11：是)，处理转移到步骤s12。另一方面，在不存在上述操作对象应用的情况下(s11：否)，处理转移到步骤s14。例如，如图4所示，在显示装置3上显示了至少一个上述操作对象应用的操作画面的情况下，控制部31判断为存在上述操作对象应用。
[0057]
在步骤s12中，显示装置3的控制部31判断是否从用户受理了请求提示上述操作辅助信息的操作。在从用户受理了请求提示上述操作辅助信息的操作的情况下(s12：是)，处理转移到步骤s13。另一方面，在未受理从用户请求提示上述操作辅助信息的操作的情况下(s12：否)，处理转移到步骤s14。例如，在图4所示的操作画面中用户按下了操作按钮b1时，控制部31判断为从用户受理了请求提示上述操作辅助信息的操作。此外，操作按钮b1既可以显示在任一个上述操作对象应用的操作画面内，也可以显示在上述操作对象应用的操作画面外。
[0058]
在步骤s13中，控制部31向操作上述操作画面的用户提示辅助用户操作的信息(操作辅助信息)。具体而言，控制部31将针对上述操作对象应用的上述操作辅助信息与上述操作画面相关联地进行提示。
[0059]
例如，如图5所示，控制部31将与针对“声音应用”的操作对象应用ap1的声音命令对应的操作辅助信息h1与操作对象应用ap1的操作画面相关联地进行提示，将与针对“power point”的操作对象应用ap2的声音命令对应的操作辅助信息h2与操作对象应用ap2的操作画面相关联地进行提示，将与针对“pensoft”的操作对象应用ap3的声音命令对应的操作辅助信息h3与操作对象应用ap3的操作画面相关联地进行提示。步骤s13是本发明的辅助信息提示步骤的一个示例。
[0060]
在步骤s14中，声音处理装置1的控制部11判断是否接收到用户的声音。在控制部11接收到用户的声音的情况下(s14：是)，处理转移到步骤s15。另一方面，在控制部11未接收到用户的声音的情况下(s14：否)，处理转移到步骤s11。步骤s14是本发明的声音接收步骤的一个示例。
[0061]
在步骤s15中，控制部11基于接收到的上述声音，判断该声音是否包含有上述特定词。例如，控制部11对接收到的上述声音进行声音识别并转换为文本数据，并判断在该文本数据的开头是否包含上述特定词。在上述声音中包含上述特定词的情况下(s15：是)，处理转移到步骤s16。在上述声音中未包含上述特定词的情况下(s15：否)，处理转移到步骤s11。
[0062]
在步骤s16中，控制部11将包含在上述声音中并接着上述特定词的关键词(命令用关键词)的文本数据发送到云服务器2。
[0063]
接着在步骤s17中，云服务器2的控制部21接收从声音处理装置1发送的上述命令用关键词，基于上述命令用关键词确定声音命令。例如，控制部21参照图2所示的命令信息d1，确定与上述命令用关键词对应的声音命令。步骤s17是本发明的命令确定步骤的一个示例。
[0064]
接着在步骤s18中，控制部11将确定的上述声音命令的信息存储在与显示装置3对应的队列k1中。
[0065]
接着在步骤s19中，显示装置3的控制部31对上述操作对象应用执行所确定的上述声音命令。具体而言，控制部31从与显示装置3对应的队列k1获取声音命令，并执行该声音命令。步骤s19是本发明的命令执行步骤的一个示例。通过如上，声音处理系统100执行上述声音处理。
[0066]
如上上述，本实施方式涉及的声音处理系统100使作为用户的操作对象的操作对象应用的操作画面进行显示，并将针对上述操作对象应用的操作辅助信息与上述操作画面相关联地进行提示。另外，声音处理系统100接收上述用户的声音，并基于上述声音确定针对上述操作对象应用的第一命令，对上述操作对象应用执行上述第一命令。由此，用户可以一目了然地掌握可通过声音命令来操作哪个操作画面，或者能够操作操作画面的声音命令是什么等。由此，能够使通过声音命令的操作的便利性提升。
[0067]
本技术发明不限定于上述的实施方式。以下说明本发明的另一实施方式。
[0068]
此处，在显示装置3上显示有与同一操作对象应用对应的多个操作画面的情况下，用户难以一目了然地掌握可通过声音命令来操作哪个操作画面，或者能够操作上述操作画面的声音命令是什么等。例如，如图7所示，在显示装置3上显示有两个“power point”的操
作对象应用ap2的操作画面的情况下，用户难以一目了然地掌握可通过声音命令来操作哪个操作画面，或者能够操作操作画面的声音命令是什么等。
[0069]
因此，在另一实施方式涉及的声音处理系统100中，在显示装置3上显示有与同一操作对象应用对应的多个操作画面的情况下，显示装置3的控制部31(辅助信息提示部315)将能够识别多个上述操作画面的画面识别信息与每个上述操作画面相关联地进行提示。上述画面识别信息是本发明的操作辅助信息的一个示例。例如，如图8所示，控制部31在一个操作画面上显示红色框的画面识别信息h21(为了方便起见，在图8中用“粗线”表示。)，在另一个操作画面上显示蓝色框的画面识别信息h31(为了方便起见，在图8中用“虚线”表示。)。由此，例如用户能够通过画面识别信息识别并且能够通过该画面识别信息指定想要在两个操作画面中执行声音命令的操作画面。例如，通过用户发出“move to next page by red(红色移至下一页)”的声音命令(命令用关键词)，指定图中上侧的操作画面，并且通过确定针对该操作画面的上述声音命令，将该操作画面上显示的资料的页面翻到下一页。
[0070]
此外，控制部31在用户例如按下操作按钮b1的情况下，显示画面识别信息h21、h31。
[0071]
此外，在用户例如按下操作按钮b1的情况下，如图9所示，在画面识别信息h21、h31的基础上，控制部31还可以显示由对话框目标图像和上述声音命令的文本信息构成的操作辅助信息h1、h2、h3。
[0072]
另外，上述画面识别信息不限于与颜色对应的识别信息，如图10以及图11所示，也可以是与编号对应的识别信息。在这种情况下，例如用户在说出“move to next page by two(2移至下一页)”的声音命令(命令用关键词)的情况下，指定图中下侧的操作画面，并且确定针对该操作画面的上述声音命令。另外，上述画面识别信息也可以是与操作画面的位置(上侧、下侧、左侧、右侧等)、边框的线条种类、线宽对应的识别信息。
[0073]
另外，作为其他实施方式，显示装置3的控制部31(辅助信息提示部315)也可以将一个或多个声音命令中的、与命令执行部314在当前时刻能够执行的声音命令对应的文本信息(操作辅助信息)以能够识别的方式与操作画面相关联地进行提示。例如，在图12所示的示例中，在“power point”的操作对象应用ap2的操作画面上显示资料的最后一页的情况下，由于不存在下一页，因此命令执行部314不能执行“move to next page”的声音命令。另外，辅助信息提示部315删除(不显示)与“move to next page”的声音命令对应的操作辅助信息h2，只提示与当前时刻能够执行的声音命令对应的操作辅助信息h2。
[0074]
另外，在图12中，在“excel”的操作对象应用ap3的操作画面中不存在能够执行的声音命令的情况下，辅助信息提示部315也可以提示表示不受理针对操作对象应用ap3的操作画面的声音命令的操作辅助信息h33。另外，作为另一实施方式，显示装置3的控制部31(辅助信息提示部315)也可以仅将一个或多个声音命令中的、与使用频率为规定频率以上的声音命令对应的操作辅助信息以能够识别的方式与操作画面相关联地进行提示。另外，辅助信息提示部315也可以仅将一个或多个声音命令中的、按照使用频率从高到低的顺序与上位的规定数量(例如，5个)的声音命令对应的信息操作辅助信息以能够识别的方式与操作画面相关联地进行提示。
[0075]
另外，作为另一实施方式，显示装置3的控制部31(辅助信息提示部315)也可以在图5所示的多个信息操作辅助信息中，将与用户下一个能操作的声音命令、用户下一个不能
操作的声音命令、用户可能会操作的声音命令等对应的信息操作辅助信息以能够识别的方式与操作画面相关联地进行提示。例如，辅助信息提示部315在“power point”的操作对象应用ap2的操作画面中，使与下一个能操作的“move to next page”的声音命令对应的信息操作辅助信息h2闪烁显示，且使与下一个不能操作的“move to previous page(移至上一页)”的声音命令对应的信息操作辅助信息h2以灰色显示。这样，可以向用户提出下一个操作内容的候选。
[0076]
另外，作为另一实施方式，显示装置3的控制部31(辅助信息提示部315)也可以将上述操作辅助信息与操作对象位置相关联地进行显示。例如，在操作对象应用ap2的操作画面中显示使页面前进的操作按钮(目标图像)的情况下，辅助信息提示部315以上述操作辅助信息的对话框目标图像的一部分(对话框部)与该操作按钮重叠的方式进行显示。由此，用户能够容易地掌握与想要操作的内容对应的命令用关键词(命令声音)。
[0077]
本发明的声音处理系统可以应用于电视会议系统。例如，声音处理系统100构成为包括配置在第一会议室的第一声音处理装置1及第一显示装置3、配置在第二会议室的第二声音处理装置1及第二显示装置3。第一声音处理装置1和第一显示装置3、第二声音处理装置1和第二显示装置3、以及云服务器2通过网络n1相互连接，从而实现第一会议室和第二会议室中的电视会议。在上述电视会议中，例如，第一显示装置3的显示处理部312显示“power point”的操作对象应用ap2的两个操作画面(参照图8等)。另外，第二显示装置3的显示处理部312显示与第一显示装置3相同的操作画面，即“power point”的操作对象应用ap2的两个操作画面。在这种情况下，第一显示装置3的辅助信息提示部315在第一显示装置3中将能够识别上述两个操作画面的画面识别信息h21、h31与各个操作画面相关联地显示。同样地，第二显示装置3的辅助信息提示部315在第二显示装置3中将能够识别上述两个操作画面的画面识别信息h21、h31与各个操作画面相关联地显示。这样，构成电视会议系统的多个显示装置3各自执行上述控制部31的各处理。由此，能够使参加电视会议的各用户的声音命令的操作的便利性提升。
[0078]
此外，本发明的声音处理系统也可以通过在各权利要求所述的发明范围内，自由组合以上所示的各实施方式，或者适当地变更各实施方式或省略各实施方式的一部分来构成。
[0079]
本发明的范围并不限于上述内容，而是由权利要求的记载来定义，所以可以认为本说明书记载的实施方式只是举例说明，而并非进行限定。因此，所有不脱离权利要求的范围、界限的更改，以及等同于权利要求的范围、界限的内容都包含在权利要求的范围内。

技术特征：
1.一种基于用户的声音执行规定的命令的声音处理系统，其特征在于，包括：显示处理部，其显示所述用户的操作对象即操作对象应用的操作画面；辅助信息提示部，其将针对所述操作对象应用的操作辅助信息与所述操作画面相关联地进行提示；声音接收部，其接收所述用户的声音；命令确定部，其基于由所述声音接收部接收的所述声音，确定针对所述操作对象应用的第一命令；以及命令执行部，其对所述操作对象应用执行由所述命令确定部确定的所述第一命令。2.如权利要求1所述的声音处理系统，其特征在于，所述辅助信息提示部将所述操作辅助信息与所述操作画面相关联地进行提示，所述操作辅助信息对应于针对所述操作对象应用的一个或多个命令，所述命令确定部基于所述一个或多个命令中的由所述声音接收部接收的所述声音来确定所述第一命令，所述命令执行部执行由所述命令确定部确定的所述第一命令。3.如权利要求2所述的声音处理系统，其特征在于，所述辅助信息提示部将与所述一个或多个命令分别对应的一个或多个特定词的文本信息与所述操作画面相关联地进行提示。4.如权利要求3所述的声音处理系统，其特征在于，所述辅助信息提示部将所述文本信息以能够识别的方式与所述操作画面相关联地进行提示，所述文本信息对应于所述一个或多个命令中的所述命令执行部在当前时刻能够执行的命令。5.如权利要求4所述的声音处理系统，其特征在于，所述辅助信息提示部仅将所述文本信息与所述操作画面相关联地进行提示，所述文本信息对应于所述一个或多个命令中的所述命令执行部在当前时刻能够执行的命令。6.如权利要求2至5中任一项所述的声音处理系统，其特征在于，在所述显示处理部显示与同一所述操作对象应用对应的多个所述操作画面的情况下，所述辅助信息提示部将能够识别多个所述操作画面的画面识别信息与各个所述操作画面相关联地进行提示。7.如权利要求2至5中任一项所述的声音处理系统，其特征在于，所述显示处理部使与同一所述操作对象应用对应的多个所述操作画面分别显示在经由网络能够相互通信地连接的第一显示装置以及第二显示装置，在所述第一显示装置以及所述第二显示装置的每一个中，所述辅助信息提示部将能够识别多个所述操作画面的画面识别信息与各个所述操作画面相关联地进行提示。8.如权利要求2至7中任一项所述的声音处理系统，其特征在于，还包括操作受理部，其受理所述用户的规定的操作，所述辅助信息提示部在所述操作受理部从所述用户受理了请求提示所述操作辅助信息的操作的情况下，提示所述操作辅助信息。9.如权利要求2至7中任一项所述的声音处理系统，其特征在于，所述辅助信息提示部在通过所述声音接收部接收了所述用户的声音的情况下，提示所述操作辅助信息。
10.一种基于用户的声音执行规定的命令的声音处理方法，其特征在于，使一个或多个处理器执行如下步骤：显示步骤，显示所述用户的操作对象即操作对象应用的操作画面；辅助信息提示步骤，将针对所述操作对象应用的操作辅助信息与所述操作画面相关联地进行提示；声音接收步骤，接收所述用户的声音；命令确定步骤，基于由所述声音接收部接收的所述声音，确定针对所述操作对象应用的第一命令；以及命令执行步骤，对所述操作对象应用执行由所述命令确定部确定的所述第一命令。

技术总结
提供一种能够使通过声音命令的操作的便利性提升的声音处理系统以及声音处理方法。声音处理系统包括：显示处理部，其显示所述用户的操作对象即操作对象应用的操作画面；辅助信息提示部，其将针对所述操作对象应用的操作辅助信息与所述操作画面相关联地进行提示；声音接收部，其接收所述用户的声音；命令确定部，其基于由所述声音接收部接收的所述声音，确定针对所述操作对象应用的第一命令；以及命令执行部，其对所述操作对象应用执行由所述命令确定部确定的所述第一命令。部确定的所述第一命令。部确定的所述第一命令。

技术研发人员：卷岛一雄山下大辅
受保护的技术使用者：夏普株式会社
技术研发日：2021.08.24
技术公布日：2022/3/8

专利

最新回复(0)