AI+语音转文字

Hanami live translator

Hanami Live Translator 是一种工具,可以捕获来自 Windows 扬声器和麦克风的任何音频。它可用于自动将口语从一种语言翻译成另一种语言。该应用程序使用轻量级多处理,分块处理音...

标签:
爱站权重:PC 百度权重移动 百度移动权重

Hanami Live Translator 是一种工具,可以捕获来自 Windows 扬声器和麦克风的任何音频。它可用于自动将口语从一种语言翻译成另一种语言。该应用程序使用轻量级多处理,分块处理音频并使用 SpeechRecognition 将二进制音频转换为文本。它还使用 Selenium 在没有 API 调用的情况下模拟对 Deepl 服务器的 Web 调用,并且该应用程序提供了一个便携式版本的谷歌浏览器及其匹配的 Chrome 驱动程序。该应用程序还具有白天/夜间模式切换、用于将应用程序保持在顶部的图钉按钮以及用于更新设备列表的刷新菜单项。

Hanami 在线翻译

这是 Hanami,它是一款实时翻译器,可以捕获来自 WINDOWS 扬声器和麦克风的任何音频。请记住,这不是官方产品,也不是研究课题。这是一个玩具概念证明,可以帮助一些人找到灵感。需要您自担风险使用它。要使用它,您需要选择您希望应用程序收听的扬声器(通常是当您单击任务栏时钟旁边的扬声器图标时出现的扬声器)并选择源语言和目标语言。就是这样!现在口语将被翻译!该应用程序使用轻量级多处理并分块处理音频,其中每个块大约需要 3 - 5 秒来处理。

工作流程

该应用程序将捕获来自 WINDOWS 机器的任何声音,而不管该应用程序是什么。(谷歌会议、微软团队、缩放、YouTube 视频或任何使用扬声器的东西)。该过程使用低级访问来创建硬件环回,这意味着即使扬声器静音,它也可以在将自己挂接到主板音频流时收听内容。要运行,应用程序将执行以下操作:

  1. 通过线程,该应用程序将收听您的扬声器并每 5 秒制作一个临时的降噪 wav 文件。此线程始终运行,因此不会出现音频间隙。
  2. wav 文件内容被转换为一个 NumPy 数组,该数组被缩放,然后通过给定源语言的谷歌 API 转换为文本。
  3. 通过线程,应用程序将通过 API 将文本(给定源语言)翻译成目标语言。

下图显示了 Hanami Live 翻译器运行的主要步骤。凭借其三个阶段,它确保其音频块之间没有间隙。音频缓冲区和资源利用率始终保持不变,以避免任何内存开销。不用说,Hanami 是一个在线系统,需要互联网连接才能运行。它会在启动后立即检查对运行服务器的访问,并根据连接状态运行。

Hanami live translator

下表显示了每个块的任务与时间。该应用程序确保其所有调用都是线程安全的,并在任务完成后清理其缓存、缓冲区和管道。

数据统计

相关导航

分享