Package: whisper 0.4.0

Troy Hernandez

whisper: Native R 'torch' Implementation of 'OpenAI' 'Whisper'

Speech-to-text transcription using a native R 'torch' implementation of 'OpenAI' 'Whisper' model <https://github.com/openai/whisper>. Supports multiple model sizes from tiny (39M parameters) to large-v3 (1.5B parameters) with integrated download from 'HuggingFace' <https://huggingface.co/> via the 'hfhub' package. Provides automatic speech recognition with optional language detection and translation to English. Audio preprocessing, mel spectrogram computation, and transformer-based encoder-decoder inference are all implemented in R using the 'torch' package.

Authors:Troy Hernandez [aut, cre], cornball.ai [cph], OpenAI [cph]

whisper_0.4.0.tar.gz
whisper_0.4.0.zip(r-4.7)whisper_0.4.0.zip(r-4.6)whisper_0.4.0.zip(r-4.5)
whisper_0.4.0.tgz(r-4.6-any)whisper_0.4.0.tgz(r-4.5-any)
whisper_0.4.0.tar.gz(r-4.7-any)whisper_0.4.0.tar.gz(r-4.6-any)
whisper_0.4.0.tgz(r-4.6-emscripten)
manual.pdf |manual.html✨
DESCRIPTION |NEWS
card.svg |card.png
whisper/json (API)

# Install 'whisper' in R:

install.packages('whisper', repos = c('https://cornball-ai.r-universe.dev', 'https://cloud.r-project.org'))

Bug tracker:https://github.com/cornball-ai/whisper/issues

On CRAN:

4.50 score 7 stars 9 scripts 377 downloads 16 exports 36 dependencies

Last updated from:880c4bb541. Checks:9 OK. Indexed: yes.

Target	Result	Time
linux-devel-x86_64	OK	144
source / vignettes	OK	179
linux-release-x86_64	OK	141
macos-release-arm64	OK	96
macos-oldrel-arm64	OK	96
windows-devel	OK	77
windows-release	OK	87
windows-oldrel	OK	85
wasm-release	OK	125

Exports:audio_to_mel detect_language download_whisper_model list_downloaded_models list_whisper_models load_audio load_whisper_model model_exists serve transcribe whisper_config whisper_device whisper_dtype whisper_pipeline whisper_tokenizer whisper_tune_gc

Dependencies:askpass av bit bit64 callr cli coro curl desc farver filelock fs glue hfhub httr jsonlite labeling lifecycle magrittr mime openssl otel processx ps R6 RColorBrewer Rcpp rlang safetensors scales sys torch triebeard urltools viridisLite withr

Help page	Topics
Model Download Utilities	.model_sizes
Apply BPE Merges	apply_bpe
Apply Timestamp Token Rules	apply_timestamp_rules
Get Audio Duration	audio_duration
Convert Audio to Mel Spectrogram	audio_to_mel
Beam Search Decode	beam_search_decode
Build Reverse Byte Decoder	build_byte_decoder
Convert Byte to BPE Token	byte_to_token
Clean Transcribed Text	clean_text
Compression Ratio	compression_ratio
Compute STFT Magnitude	compute_stft
Compute Word-Level Timestamps	compute_word_timestamps
Copy Weight if Exists	copy_if_exists
Create Decoder from Config	create_decoder
Create Encoder from Config	create_encoder
Create Mel Filterbank (Fallback)	create_mel_filterbank_fallback
Decode BPE Bytes Back to Text	decode_bpe_bytes
Decode Timestamp Token	decode_timestamp
Decode with Temperature Fallback	decode_with_fallback
Detect Language	detect_language
Detect Language from Mel Spectrogram	detect_language_from_mel
Detect Language from Pipeline	detect_language_from_pipeline
Download Tokenizer Files from HuggingFace	download_tokenizer_files
Download Model from HuggingFace	download_whisper_model
DTW Alignment	dtw_align
Ensure Tokenizer Files are Downloaded	ensure_tokenizer_files
Expand KV Cache for Beam Search	expand_kv_cache
Extract Segments with Timestamps	extract_segments
Forced Decode	forced_decode
Get Initial Decoder Tokens	get_initial_tokens
Get Model Cache Path	get_model_path
Get Path to Model Weights	get_weights_path
Greedy Decoding	greedy_decode
Group Subword Tokens into Words	group_into_words
Convert Hz to Mel Scale	hz_to_mel
Check if Token is Timestamp	is_timestamp_token
List Downloaded Models	list_downloaded_models
List Available Models	list_whisper_models
Load and Preprocess Audio	load_audio
Load Decoder Weights	load_decoder_weights
Load Encoder Weights	load_encoder_weights
Load Pre-computed Mel Filterbank	load_mel_filterbank
Load Whisper Model	load_whisper_model
Load Weights from Safetensors	load_whisper_weights
1D Median Filter	medfilt1
Convert Mel Scale to Hz	mel_to_hz
Check if Model is Downloaded	model_exists
Pad or Trim Audio to Fixed Length	pad_or_trim
Parse Device Argument	parse_device
Parse Dtype Argument	parse_dtype
Rearrange KV Cache by Beam Indices	rearrange_kv_cache
Sample Decode	sample_decode
Serve whisper over HTTP	serve
Split Long Audio into Chunks	split_audio
Decode Token IDs to Text	tokenizer_decode
Encode Text to Token IDs	tokenizer_encode
Transcribe Audio	transcribe
Transcribe Single Chunk	transcribe_chunk
Transcribe Long Audio	transcribe_long
Multi-Head Self-Attention	whisper_attention
Whisper Model Configurations	whisper_config
Text Decoder	whisper_decoder
Decoder Layer	whisper_decoder_layer
Get Default Device	whisper_device
Get Default Dtype	whisper_dtype
Audio Encoder	whisper_encoder
Encoder Layer	whisper_encoder_layer
Get Language Code from Token ID	whisper_lang_from_id
Get Language Token ID	whisper_lang_token
Whisper Language Table	whisper_language_table
Whisper Model Module	whisper_model
Create a Whisper Pipeline	whisper_pipeline
Whisper Audio Constants	WHISPER_SAMPLE_RATE
Special Token IDs	whisper_special_tokens
Create Whisper Tokenizer	whisper_tokenizer
Tune torch's CUDA garbage collection for whisper inference	whisper_tune_gc

Package: whisper 0.4.0

whisper: Native R 'torch' Implementation of 'OpenAI' 'Whisper'

Citation

Development and contributors

Readme and manuals

Help Manual

Usage by other packages (reverse dependencies)