当前位置: 首页 > 编程语言 > C#

C#SpeechRecognitionfromSystemAudio(SpeakerSound)分享

时间:2023-04-11 03:41:42 C#

C#SpeechRecognitionfromSystemAudio(SpeakerSound)http://gotspeech.net/forums/thread/6835.aspx)。但是,我想知道是否可以实时对系统音频进行语音识别。通过系统音频,从扬声器发出声音。对于有听力障碍的人来说,这将是一个很好的工具,因为他们正在观看YouTube视频,C#应用程序可以转录所说的内容。我怎样才能做到这一点?非常简单-转到调音台,选择一个输入并启用/取消静音“立体声混音”。当然,如果您不想录音,您应该将麦克风静音。然后,以与录制麦克风相同的方式开始录制-现在您将获得与从扬声器获得的数字质量相同的馈送。这可以通过编程方式完成,尽管它可能很乏味-特别是如果您想支持WinXP以及Vista/Win7(声音在Vista中进行了大修,我相信API非常不同,尽管我还没有使用它们)。在尝试识别声音之前,您几乎肯定需要过滤声音。除非口头记录。您正在使用的图书馆设计用于在恶劣的条件下工作,音乐和特效会干扰正确的识别,并且多人同时讲话。如果您还没有一个超级强大的库,那么衰减非人声频率的滤波器将是必须的。您可能还想应用音量归一化来解决响亮/安静的场景——拥有数百个过滤器可能会改善匹配。您可能希望访问最低级别的识别API以获得尽可能多的控制-您需要针对人们大喊大叫、呼吸困难、哭泣等对其进行调整……如果您开始设计灵活的低级别访问,如果您发现以后需要它,它可能会节省您数周的时间,并且不必重新设计。我建议您使用NAudio作为音频处理的起点。我怀疑您是否能够在不费吹灰之力的情况下获得在理想条件下工作的东西-但调整它以适应各种可能的情况可能是一项艰巨的任务。也就是说,这听起来像是一个有趣的项目。通过创建特定于流派、特定于用户或特定于显示的词典,您可以大大提高识别的机会。这些可以预先生成,或者使用加权反馈循环自动构建——也许还允许用户纠正错误。以上就是《C#学习教程:C#语音识别(扬声器声音)来自系统音频》的全部内容。代表立场,如涉及侵权,请点击右侧联系管理员删除。如需转载请注明出处: