ライブ文字化の使用

音声サービスでライブ・トランスクリプション・ジョブを作成および管理します。

ライブ・トランスクリプション機能では、リアルタイム・トランスクリプションが提供されるため、オーディオ・ストリームを送信してテキスト結果をリアルタイムで受信できます。ヘルスケア、コール・センター、メディアなど、さまざまな業界で多くのユースケースにリアルタイムの転写が必要です。たとえば、医師や看護師は、リアルタイムの能力を必要とし、作業効率を向上させる医療命令を使用しています。ライブ・トランスクリプションのリリースにより、アプリケーションの正確なトランスクリプションを数秒未満で取得できます。埋込みテキスト・ウィンドウを使用してライブ・トランスクリプションを試すか、OCIリアルタイム・トランスクリプション・サービスとプログラム的に統合する方法に関する情報はAPIドキュメントを参照してください。

ライブ・トランスクリプション・セッションの作成

音声ライブ・トランスクリプション・セッションを作成して送信し、ライブ・オーディオ・ストリームをテキストにトランスクリプトします。

  1. ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「AIサービス」で、「音声」をクリックします。
  2. 左側のナビゲーション・メニューで、「ライブ・トランスクリプション」をクリックします。
  3. 「リスト範囲」で、作業するコンパートメントを選択します。
  4. (オプション)「トランスクリプションの構成」セクションで、トランスクリプションをカスタマイズするには、次のオプションの1つ以上に値を選択します:
    • モデル・タイプの選択: トランスクリプションに使用する音声モデルを選択します。
    • ドメインの選択: 使用する音声モデルのドメインを選択します。
    • 言語の選択: 翻訳する言語を選択します。
    • 句読点: 生成された文字の句読点を構成します。句読点なし(デフォルト値)の場合は「なし」、句読点を自動的に挿入する場合は「自動」、口頭で話す場合は「音声」の3つのオプションを使用できます。
    • (Oracleモデルの場合のみ)部分沈黙しきい値: 音声認識を終了する前に、音声アクティビティの検出を停止した後で、サービスにより多くの音声を待機する時間(ミリ秒)を入力します。
    • (Oracleモデルの場合のみ)最終無音しきい値: サービスがセッションの終了を待機するワードが話された後の無音のミリ秒数を入力します。
    • (Oracleモデルのみ)部分的な結果安定性: 新しい部分的結果の一部として最新のトークンを返す前に、それらに必要とされる信頼度の量を選択します。
    • (Oracleモデルのみ)カスタマイズの有効化: セッションをカスタマイズするには、このチェック・ボックスを選択します。
      • 使用するカスタマイズを選択します。必要に応じてコンパートメントを変更します。
      • 「エンティティの上書き」をクリックします。いくつかのエンティティ・リストを含むカスタマイズのみがオーバーライドされます
  5. セッションを開始するには、「セッションの開始」をクリックし、話し始めます。
  6. セッションを停止するには、会話を停止してから「セッションの停止」をクリックします。
  7. (オプション)JSONファイルを表示するには、「JSONの表示」をクリックします。
  8. (オプション)セッションをリセットするには、「リセット」をクリックします。