以下の条件で音声文字起こしとその内容の要約を行う場合、どのような方法が考えられますか?

良い要件です。オンプレ・ネット遮断・低スペック・OSSのみ、という条件で「音声→文字起こし→要約」を実現する代表的な方法を、軽い順に3プランに整理しました。どれも完全オフライン運用が可能です。

プランA(最軽量・CPUだけ・精度は控えめ)

Vosk + 抽出型要約(TextRank/Sumy)

プランB(標準・CPUだけ・高精度)

faster-whisper(CTranslate2) + 抽出型 or 小型LLM要約

プランC(品質重視・まだCPU前提)

whisper.cpp(大モデル量子化) + llama.cpp(7B前後量子化)

※Meta Llama系は“オープンウェイト”であってOSI準拠のオープンソースではありません。要件が「OSSのみ」なら避け、Apache-2.0の Qwen2.5 や Mistral を選ぶのが安全です。(Open Source Initiative)


オフライン(ネット遮断)運用のポイント