メインコンテンツまでスキップ

はじめに

AmiVoice API は音声をテキストに変換する音声認識APIです。音声を送信すると、発話内容をテキストにした結果を返します。会議の文字起こしや音声対話システムなどの音声対応アプリケーションを作成できます。

図. AmiVoice API の概要

ドキュメンテーションの構成

導入前のセキュリティや運用のための情報は「導入・運用ガイド」、実装の詳細は「開発ガイド」、API仕様の確認は「リファレンス」、お困りの際は「ヘルプ」のセクションを参照してください。

クイックスタート

1

APPKEY を取得する

ユーザー登録ページから登録し、マイページの[接続情報]に表示される APPKEY を控えてください。次のコマンドで環境変数に設定します。

export APPKEY=your_appkey_here
ヒント

AmiVoice Tech Blogでは、ユーザー登録を行い、AmiVoice API を使って音声ファイルをテキストに変換するところまでステップバイステップで手順を説明していますので、こちらを参照してください。

AmiVoice APIを使ってみよう

2

音声ファイルを用意する

書き起こしたい音声ファイルを用意します。以下のサンプル音声(test.wav)をそのまま使えます。

対応している音声ファイルの形式については音声フォーマットについてを参照してください。

3

音声認識を実行する

以下を実行してください。test.wav を使用する音声ファイルのパスに置き換えてください。

curl https://acp-api.amivoice.com/v1/recognize \
-F d=-a-general \
-F u=$APPKEY \
-F a=@test.wav | jq
注記
  • curlコマンドがインストールされていない場合、https://curl.se/ からご利用の OS のパッケージをダウンロードするか、パッケージマネージャを利用してcurlをインストールしてください。
  • 結果テキストはUnicodeエスケープされています。上記コマンドでは、レスポンスを見やすく整形するためにjqを使用しています。jqがインストールされていない場合は、| jqの部分を除いて実行してみてください。jqコマンドは、https://stedolan.github.io/jq/ からご利用の OS のパッケージをダウンロードするか、パッケージマネージャを利用してインストールできます。
4

結果を確認する

成功すると以下のような JSON が返ります。text フィールドに書き起こし結果が含まれます。

{
"results": [
{
"tokens": [ ... ],
"confidence": 0.998,
"starttime": 250,
"endtime": 8794,
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20220602/14/018122d637320a301bc194c9_20220602_141433",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}

詳細なレスポンスの内容については音声認識の結果を参照してください。

次のステップ

クイックスタートは、同期 HTTP インタフェースを使いました。リアルタイム音源を扱いたい場合はWebSocket インタフェース、15MBを超える大きな音声ファイルを処理したい場合は非同期HTTPインタフェースが利用できます。それぞれのユースケースや使い分けのポイントについては、インタフェースの種類と使い方を参照してください。

開発をサポートするクライアントライブラリやサンプルプログラムも提供しています。

音声認識精度の改善のためのカスタマイズについては、以下の機能を活用できます。

話者ダイアライゼーションや感情分析などの追加機能も提供しています。目的に応じて活用してください。

構築したサービスの運用をサポートする機能についても提供しています。

包括的な開発ガイドも参照してください。