- VisualStudio2022插件的安装及使用-编程手把手系列文章
- pprof-在现网场景怎么用
- C#实现的下拉多选框,下拉多选树,多级节点
- 【学习笔记】基础数据结构:猫树
直接pip即可: pip install openai-whisper 。
成功后如下图所示 。
当时用了他这个方法环境直接崩了,已老实 。
conda install -c conda-forge ffmpeg conda install -c conda-forge poetry poetry init poetry add openai-whisper
1 import whisper 2 3 model = whisper.load_model("base") 4 5 # load audio and pad/trim it to fit 30 seconds 6 audio = whisper.load_audio("audio.mp3") 7 audio = whisper.pad_or_trim(audio) 8 9 # make log-Mel spectrogram and move to the same device as the model 10 mel = whisper.log_mel_spectrogram(audio).to(model.device) 11 12 # detect the spoken language 13 _, probs = model.detect_language(mel) 14 print(f"Detected language: {max(probs, key=probs.get)}") 15 16 # decode the audio 17 options = whisper.DecodingOptions() 18 result = whisper.decode(model, mel, options) 19 20 # print the recognized text 21 print(result.text)
可以从官方的官方的调用思路中学习,我们调用的时候也可以参照这个demo来稍作修改 。
如何通过whisper来提取PPG特征【Phoneme Posteriorgram 即音素后验概率图】,这里的后验概率特征指的就是歌词的信息特征,我们这里2.1先把歌词信息提取出来 。
导入对应依赖库 。
主要是导入whisper(主要库)和torch (用来使用gpu加速的) 。
导入所选模型 。
模型可选信息如下图所示:
size里面既是大小,也是对应可以加载的模型名 。
各位可以根据自己的VRAM 显存大小和对应的速度【他这里多少倍应该的对照最大的那个模型来衡量速度的】来选择 。
第一次因为本地没有模型,会自动下载,下载不了了都是网络问题,自行解决,救不了:
输入音频路径及其余可选信息 。
可选信息:
language:
部分常见语言代码如下表所示:
语言 | 代码 |
---|---|
英语 | en |
中文 | zh |
德语 | de |
西班牙语 | es |
法语 | fr |
日语 | ja |
韩语 | ko |
意大利语 | it |
葡萄牙语 | pt |
荷兰语 | nl |
俄语 | ru |
土耳其语 | tr |
波兰语 | pl |
越南语 | vi |
瑞典语 | sv |
印地语 | hi |
泰语 | th |
乌克兰语 | uk |
希腊语 | el |
匈牙利语 | hu |
阿拉伯语 | ar |
根据不同情况进行输出 。
代码实现:
1 import whisper#导入依赖包 2 3 model = whisper.load_model('small')#选择模型 4 result = model.transcribe(audio=input("your music path:"), language='en', verbose=True) 5 print(result)#输出结果 6
结果【我这里的歌是Never Gonna Give You Up.mp3】:
解释:
其实蛮简单的,如果只需要获取歌词信息的话,4行就能完成了 。
load_model(name: str, device: Union[str, device, None] = None, download_root: Optional[str] = None, in_memory: bool = False) -> Whisper 函数:
参数解释:
name:对应的是上文中所选模型的名字,你选择哪一种大小的模型就在这个导入中体现,tiny、small之类的,这里也能通过路径来确定你的模型,但一般用不上 。
probe the "name" element(进阶深入理解):
在官方构造这个函数中,写到了:
one of the official model names listed by whisper.available_models(),or path to a model checkpoint containing the model dimensions and the model state_dict. 。
从中我们可以使用 whisper.available_models()来查看支持的模型名称 print(whisper.available_models()),且这个name还可以是本地的模型尺度(如上面的small)的路径 。
['tiny.en', 'tiny', 'base.en', 'base', 'small.en', 'small', 'medium.en', 'medium', 'large-v1', 'large-v2', 'large-v3', 'large']
(可选)device:模型运行时的设备,这里默认不选即可,系统会自动选择 。
probe the "devic" element:
the PyTorch device to put the model into 。
为什么说可以默认不选择,看一下函数。因为官方已经帮我们选好了,自动帮我们执行了我们平常调用torch进行GPU处理时的设备选择:
if device is None:
device = "cuda" if torch.cuda.is_available() else "cpu"
其他元素:
download_root:模型下载的路径,不填就是默认位置。我的建议是不懂这个的话最好默认就好了,不然可能后续调用有问题,了解一下即可 。
def transcribe(model: Whisper, audio: Union[str, ndarray, Tensor],*) 这个函数的参数太多了,我挑选几个平时可能会用到的讲解:
model:模型的调用示例,传入的是一个 Whisper类,就是上文我们load_model完的 modle变量 。
audio:音频的路径或者是音频的波形图(即音频的数组化形式) 。
The path to the audio file to open, or the audio waveform 。
(可选)language:虽然没在函数中列出来,但也是重要的参数,选择对应的语言,默认为"en"--英语,可以根据需要自行选择 。
其他参数:
(可选)verbose:是否在控制台显示正在解码的文本。如果为 True,则显示所有详细信息;如果为 False,则显示最少的详细信息;如果为 None,则不显示任何信息。【建议显示】 。
Whether to display the text being decoded to the console. If True, displays all the details, If False, displays minimal details. If None, does not display anything 。
(可选)initial_prompt:对第一个窗口的提示词,方便模型区分一些专有名词什么的 。
Optional text to provide as a prompt for the first window. This can be used to provide, or "prompt-engineer" a context for transcription, e.g. custom vocabularies or proper nouns to make it more likely to predict those word correctly. 。
其他的更深入就是某个指标达不到预定值的操作,较少用,不深入了,我也不懂 。
1 import whisper 2 from whisper.utils import get_writer 3 4 model = whisper.load_model('small')#可以放在里面,这里方便调用 5 6 def get_transcribe(audio: str, language: str = 'en'): 7 return model.transcribe(audio=audio, language=language, verbose=True) 8 9 def save_file(results, format='tsv'): 10 writer = get_writer(format, 'output/') 11 writer(results, f'transcribe.{format}') 12 13 def get_language(): 14 """ 15 构造了个语言选择输入,如果是默认就回车就好了,会设置为英文 16 :return: 17 """ 18 language_input = input("input the song language[default->enter]\n" 19 "(英语->en、中文->zh、德语->de、西班牙语->es、法语->fr、日语->ja、.....):") 20 default = 'en' if not language_input else language_input #如果language_input为空 则语言为英文,否则是输入的语言 21 print(f"model language is {default}") 22 return default 23 24 25 if __name__ == "__main__": 26 result = get_transcribe(audio=input("please input your music path:"), language= get_language()) 27 print(result.get('text', ''))
def get_writer(output_format: str, output_dir: str) -> Callable[[dict, TextIO, dict], None]
explain:
output_format:输出的格式,str类型,可选形式如下:
writers = {
"txt": WriteTXT,
"vtt": WriteVTT,
"srt": WriteSRT,
"tsv": WriteTSV,
"json": WriteJSON,
}
probe in output_format
if output_format == "all": all_writers = [writer(output_dir) for writer in writers.values()] 。
这个选项还可以是all,直接全部格式都生成一遍 。
output_dir:输出文件夹 。
调用方式:
1 def save_file(results, format='tsv'): 2 writer = get_writer(format, 'output/') 3 writer(results, f'transcribe.{format}') #直接调用就好,第一个参数是前面我们获取的歌词信息result,后面跟的是保存的文件名字
import whisper from whisper.utils import get_writer model = whisper.load_model('small') def get_transcribe(audio: str, language: str = 'en'): return model.transcribe(audio=audio, language=language, verbose=True) def save_file(results, format='tsv'): writer = get_writer(format, 'output/') writer(results, f'transcribe.{format}') def get_language(): """ 构造了个语言选择输入,如果是默认就回车就好了,会设置为英文 :return: """ language_input = input("input the song language[default->enter]\n" "(英语->en、中文->zh、德语->de、西班牙语->es、法语->fr、日语->ja、.....):") default = 'en' if not language_input else language_input #如果language_input为空 则语言为英文,否则是输入的语言 print(f"model language is {default}") return default if __name__ == "__main__": result = get_transcribe(audio=input("please input your music path:"), language= get_language()) print('-'*50) print(result.get('text', '')) save_file(result) save_file(result, 'txt') save_file(result, 'srt')
whisper 。
How to use Whisper in Python 。
最后此篇关于python音频处理(2)——提取PPG特征之whisper库的使用(2.1)的文章就讲到这里了,如果你想了解更多关于python音频处理(2)——提取PPG特征之whisper库的使用(2.1)的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
Java 库和 android 库有什么区别,各自有什么优点/缺点? 最佳答案 您可以在 Android 应用程序中包含标准 Java .jar 文件库。它们在 .apk 构建时被翻译成 Dalvik
所以,我现在的代码就像从 Java 层加载库(比如 liba.so),并在内部 liba.so 加载 libb.so。因此,如果我必须将所有库打包到 APK 中并将其安装在没有 root 访问权限的设
我想在我的系统中设置 LEDA 库。 我已经从以下链接下载了 LEDA 库 http://www.algorithmic-solutions.info/free/d5.php Instruct
我想用 autoconf 创建一个共享库。但是,我希望共享库具有“.so”扩展名,而不是以“lib”开头。基本上,我想制作一个加载 dlopen 的插件。 .是否有捷径可寻? 当我尝试使用 autoc
我需要在 Apps 脚本应用程序上修改 PDF。为此,我想使用 JS 库:PDF-LIB 我的代码: eval(UrlFetchApp.fetch("https://unpkg.com/pdf-lib
我正在构建一个使用以下 Boost header 的程序(我使用的是 Microsoft Visual C++ 10), #include #include #include #include
当我通过 cygwin 在 hadoop 上运行此命令时: $bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 我
我已经通过 vcpgk 成功安装了一个 C++ 库,名为:lmdb:x64-windows 我还安装了lmdb通过 Cabal 安装的 Haskell 绑定(bind)包 在尝试测试 lmdb 包时:
我该如何解决这个问题? 我刚刚将 javacv jar 文件复制到我的项目 Lib 文件夹下,但出现了这个错误! 我可以找到这个thread来自谷歌,但不幸的是,由于我国的谷歌限制政策,该页面无法打开
我有一个 Android 库项目 FooLib。 FooLib 引用 Android Context 之类的东西,但不需要任何资源文件(res/ 中的东西)所以我目前将其打包为供我的应用使用的 JAR
我正在开发一个 Android 应用程序(使用 Android Studio),它能够通过手势识别算法了解您正在进行的 Activity 。对于我使用 nickgillian ithub 帐户上可用的
关于从 .NET Framework 项目中引用 .NET Standard 类库的问题有很多类似的问题,其中 netstandard 库中的 NuGet 包依赖项不会流向 netframework
我已经从互联网上下载了 jna-4.2.2.jar,现在想将这个 jar 导入到我的项目中。但是当我试图将这个 jar 导入我的项目时,出现以下错误。 [2016-06-20 09:35:01 - F
我正在尝试通过编译在 Mac 上安装 rsync 3.2.3。但是,我想安装所有功能。为此,它需要一些库,此处 ( https://download.samba.org/pub/rsync/INSTA
进入 Web 开发有点困难。过去 5 年我一直致力于 winforms 工作。所以我正在努力从一种切换到另一种。前段时间,我使用过 JavaScript,但现在还没有大量的 JavaScript 库
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在寻找一个用Python编写的与logstash(ruby + java)类似的工具/库。 我的目标是: 从 syslog 中解析所有系统日志 解析应用程序特定日志(apache、django、m
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我花了几天时间试图寻找用于 JavaPOS 实现的 .jar 库,但我找不到任何可以工作的东西。我找到了很多像这样的文档:http://jpos.1045706.n5.nabble.com/file/
这个问题在这里已经有了答案: Merge multiple .so shared libraries (2 个答案) 关闭 9 年前。 我有我在代码中使用的第三方库的源代码和对象。该库附带有关如何使
我是一名优秀的程序员,十分优秀!