Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

12-17

{
  "memoId": "3fe8b039-f867-4403-a8bb-06e217f94b5a",
  "title": "## ボイスブックLM 開発音声メモ",
  "content": "## ボイスブックLM 開発音声メモ\n\nボイスブックLMの開発状況と今後の展望について音声で記録。\n*   React NativeアプリのビルドでNode.jsのバージョン問題\n*   Google Speech to TextとGemini APIによる文字起こしと整形\n*   リアルタイム文字起こし、タグ自動付与の検討\n*   来週までにMVP完成を目指す\n\nTags: `Voicebook`, `AI`, `Development`, `Memo`",
  "tags": [
    "*",
    "リアルタイム文字起こし、タグ自動付与の検討"
  ],
  "transcription": "今日はボイスブック LM のテストも兼ねて今考えてることを音声でメモして行こうと思いますまず最初に今日行って作業振り返りから話します今日は午前中にリアクトネイティブとエキスポを使ったアプリのビルド周りを触っていました EAS ビルドを使って開発ビルドを作ろうとしたんですが NPM の警告がたくさん出てインフライトがディプリケーターだったりり胸付のバージョンが古いとかグローブの性格も出ていました後 Windows 環境のとアセンションふぇーみたいな色も出て喉 JS のバージョン磯ぽいなと感じましたこの辺りは後で整理して Node のバージョンを20系に固定するか nvm をちゃんと使うのかドキュメントにまとめたいと思っています次にボイスブック NM 自体の話をしますこのアプリでは音声を一気に録音してバックエンドに送信して Google Speech to text で文字起こしをしてその後に地味に\nゼロフラッシュを使ってタイトル先生とか本文の整形タグ付けを行う想定です例えば今日やったこととホームがやりたいことと悩んでいることが混ざった音声でもうまく整理してくれるかを試したいですここで今後やりたいことを話します直近ではリアルタイム文字起こしも行ってみたいなと思っています今は一括音声アップロード方式なんですが夜ソケットを使ってストリーミングで文字文字起こしてきたら会議メモとかにも使えそうだなと考えていますあとタグの児童扶養ももっと賢くしたくて例えば開発 react Native 音声認識 AI みたいなタグをユーザーが何もしなくてもつけてくれると嬉しいです少し話題を変えて個人的なメモを残しときます来週までにボイスケイレブの MVP を一旦完成させたいです最低限必要なのは音声録音文字起こし AI 整形一覧表示検索機能ですツールとしては一つ目音声アップロード API\n エラーハンドリング改善フタツメ文字起こしパイ市のリトライ処理見つめジェミニ API のレスポンスをもう少し安定させることこの三つは遊星の高めです最後にこの音声がちゃんと自然な文章に成形されて読みやすいメモになっていたら成功かなと思っていますもし可能ならタイトルはボイスブック LM 開発メモ SR とメモ AI 整形の継承みたいな感じになると嬉しいです以上です",
  "transcriptionStatus": "COMPLETED",
  "formattingStatus": "COMPLETED",
  "processingTimeMillis": {
    "transcription": 62634,
    "formatting": 1421,
    "persistence": 18,
    "total": 64074
  },
  "fallback": {
    "transcription": false,
    "formatting": false
  }
}

🎤 テスト音声 台本(そのまま読んでOK)

えーっと、今日は VoiceBook LM のテストも兼ねて、 今考えていることを音声でメモしていこうと思います。

まず最初に、今日やった作業の振り返りから話します。

今日は午前中に、React Native と Expo を使ったアプリのビルド周りを触っていました。 EAS Build を使って開発ビルドを作ろうとしたんですが、 npm の警告が結構たくさん出て、 inflight が deprecated だったり、rimraf のバージョンが古いとか、 glob の警告も出ていました。

あと、Windows 環境だと Assertion failed: new_time >= loop->time みたいなエラーも出て、 Node.js のバージョン依存っぽいなと感じました。

このあたりは後で整理して、 Node のバージョンを 20 系に固定するか、 nvm をちゃんと使うか、 ドキュメントにまとめたいと思っています。

次に、VoiceBook LM 自体の話をします。

このアプリでは、 音声を一気に録音して、 バックエンドに送信して、 Google Speech-to-Text で文字起こしをして、 その後に Gemini 2.0 Flash を使って タイトル生成とか、本文の整形、タグ付けを行う想定です。

例えば、 「今日やったこと」と 「今後やりたいこと」と 「悩んでいること」 が混ざった音声でも、 うまく整理してくれるかを試したいです。

ここで、今後やりたいことを話します。

直近では、 リアルタイム文字起こしもやってみたいなと思っています。 今は一括音声アップロード方式なんですけど、 WebSocket とかを使って ストリーミングで文字起こしできたら、 会議メモとかにも使えそうだなと考えています。

あと、 タグの自動付与ももっと賢くしたくて、 例えば 「開発」「React Native」「音声認識」「AI」 みたいなタグを ユーザーが何もしなくても付けてくれると嬉しいです。

少し話題を変えて、 個人的なメモも残しておきます。

来週までに、 VoiceBook LM の MVP を一旦完成させたいです。 最低限必要なのは、 音声録音、 文字起こし、 AI 整形、 一覧表示、 検索機能です。

TODO としては、

一つ目、 音声アップロード API のエラーハンドリング改善。

二つ目、 文字起こし失敗時のリトライ処理。

三つ目、 Gemini API のレスポンスを もう少し安定させること。

この三つは優先度高めです。

最後に、 この音声がちゃんと 自然な文章に整形されて、 読みやすいメモになっていたら成功かなと思っています。

もし可能なら、 タイトルは 「VoiceBook LM 開発メモ:ASR と AI 整形の検証」 みたいな感じになると嬉しいです。

文字起こし結果

今日はボイスブック LM のテストも兼ねて今考えてることを音声でメモして行こうと思いますまず最初に今日行って作業振り返りから話します今日は午前中にリアクトネイティブとエキスポを使ったアプリのビルド周りを触っていました EAS ビルドを使って開発ビルドを作ろうとしたんですが NPM の警告がたくさん出てインフライトがディプリケーターだったりり胸付のバージョンが古いとかグローブの性格も出ていました後 Windows 環境のとアセンションふぇーみたいな色も出て喉 JS のバージョン磯ぽいなと感じましたこの辺りは後で整理して Node のバージョンを20系に固定するか nvm をちゃんと使うのかドキュメントにまとめたいと思っています次にボイスブック NM 自体の話をしますこのアプリでは音声を一気に録音してバックエンドに送信して Google Speech to text で文字起こしをしてその後に地味に\nゼロフラッシュを使ってタイトル先生とか本文の整形タグ付けを行う想定です例えば今日やったこととホームがやりたいことと悩んでいることが混ざった音声でもうまく整理してくれるかを試したいですここで今後やりたいことを話します直近ではリアルタイム文字起こしも行ってみたいなと思っています今は一括音声アップロード方式なんですが夜ソケットを使ってストリーミングで文字文字起こしてきたら会議メモとかにも使えそうだなと考えていますあとタグの児童扶養ももっと賢くしたくて例えば開発 react Native 音声認識 AI みたいなタグをユーザーが何もしなくてもつけてくれると嬉しいです少し話題を変えて個人的なメモを残しときます来週までにボイスケイレブの MVP を一旦完成させたいです最低限必要なのは音声録音文字起こし AI 整形一覧表示検索機能ですツールとしては一つ目音声アップロード API\n エラーハンドリング改善フタツメ文字起こしパイ市のリトライ処理見つめジェミニ API のレスポンスをもう少し安定させることこの三つは遊星の高めです最後にこの音声がちゃんと自然な文章に成形されて読みやすいメモになっていたら成功かなと思っていますもし可能ならタイトルはボイスブック LM 開発メモ SR とメモ AI 整形の継承みたいな感じになると嬉しいです以上です

AI整形結果

ボイスブックLM 開発音声メモ\n\nボイスブックLMの開発状況と今後の展望について音声で記録。\n* React NativeアプリのビルドでNode.jsのバージョン問題\n* Google Speech to TextとGemini APIによる文字起こしと整形\n* リアルタイム文字起こし、タグ自動付与の検討\n* 来週までにMVP完成を目指す\n\nTags: Voicebook, AI, Development, Memo