Speech-to-Text

Overview

Speech-to-Text APIs: REST, real-time streaming, and batch jobs.

Packages

import (
    "github.com/Shreehari-Acharya/sarvamai-go/stt"
    "github.com/Shreehari-Acharya/sarvamai-go/sttjob"
)

Clients and methods

`client.SpeechToText` (`stt`)

`client.SpeechToTextJob` (`sttjob`)

Batch job workflow

Call Initialize to create a job and set options.
Call GetUploadLinks to get presigned upload URLs.
Upload audio files to those URLs.
Call Start to trigger processing.
Poll with GetStatus until terminal state.
Call GetDownloadLinks to fetch output URLs.

Model and mode rules (SDK validation)

Rule	Result
`ModelSaaras` + `Mode*`	Valid
`ModelSaarika` + `Mode*`	Validation error
`model` omitted + `Mode*`	Valid in SDK validation (uses `saaras:v3` model spec for mode checks)

Language set rules (SDK validation)

Model context	Allowed language set
`ModelSaarika`	`languages.SaarikaLanguages`
`ModelSaaras`	`languages.SaarasLanguages`
`model` omitted	`languages.SaarasLanguages` (validation default)

Other important combination rules

Combination	Result
`WithNumSpeakers(n)` + `WithDiarization(true)`	Valid
`WithNumSpeakers(n)` without diarization enabled	Validation error

DetectLanguage

`Text.DetectLanguage` for language and script identification.

Transcribe (REST)

`SpeechToText.Transcribe` for file-based speech recognition.

On this page

Packages Clients and methods client.SpeechToText (stt)client.SpeechToTextJob (sttjob)Batch job workflow Model and mode rules (SDK validation)Language set rules (SDK validation)Other important combination rules