重点募集中の職種:NTT版大規模言語モデル「tsuzumi」に関する研究開発

  • NTT版LLMの概要

    近年、ChatGPTを始めとする大規模言語モデル*1に大きな注目が集まっておりますが、これらは膨大な知識をモデル内に有することで高い言語処理性能を示す一方、学習に要するエネルギーは、原発1基1時間分の電力量が必要*2とも言われており、また、運用には大規模なGPUクラスタを必要とし様々な業界に特化するためのチューニングや推論にかかるコストが膨大であることから、サステナビリティおよび企業が学習環境を準備するための経済的負担面で課題があります。
    NTTでは、これらの課題を解決する研究開発を進め、今回、軽量でありながら世界トップレベルの日本語処理性能を持つ大規模言語モデル「tsuzumi*3」を開発しました。「tsuzumi」のパラメタサイズは6~70億と軽量であるため、市中のクラウド提供型LLMの課題である学習やチューニングに必要となるコストを低減します。「tsuzumi」は英語と日本語に対応し、1GPUやCPUでの推論動作を実現します。更に、「tsuzumi」は視覚や聴覚といったモーダルに対応し、特定の業界や企業組織に特化したチューニングが可能です。

技術のポイントは?

軽量なLLM

「tsuzumi」のパラメタサイズは2023年10月時点で軽量版の70億(7B)と、超軽量版の6億(0.6B)の2種類をそろえ、OpenAI社 GPT-3の1750億(175B)に対しておよそ300分の1および25分の1のサイズです。軽量版は1GPUで、超軽量版はCPUで高速に推論動作可能なモデルサイズにすることで、実用上必要となる追加学習や推論に必要なコストを抑えることが可能です。

日本語が得意なLLM

「tsuzumi」は日本語と英語に対応しており、特に日本語処理性能については、NTT研究所の長年の言語処理研究の蓄積を活かすことで、小さなパラメタサイズであっても各種のベンチマーク比較で高い精度が確認できています。

柔軟なチューニング

LLMに新しい知識を追加で学習させるようとする場合、膨大な数のパラメタ全てを再学習させると、計算にかかる学習コストが大きくなってしまいます。「tsuzumi」は、効率的に知識を学習させることのできるアダプタ*4により、例えば特定の業界に特有の言語表現や知識に対応するようなチューニングを少ない追加学習量で実現できます。

マルチモーダル*5

「tsuzumi」は必ずしも言語化されていないグラフィカルな表示や音声のニュアンス、顔の表情、ユーザのおかれている状況や、さらにはロボットが自分の身体感覚やヒトの身体的特徴を理解し、現実世界での人との協調作業も可能なモーダル拡張に対応予定です。(2024年3月以降)

募集要項

1.大規模言語モデル開発チームリーダ(最新技術調査、開発、事業化推進)

Mission

業務内容

tsuzumiの研究開発にかかるチームリーダを募集します。業務は幾つかのグループ(数名規模)での分業で進められており、このグループを指揮していただくポジションです。以下の業務ポジションを予定しています。

  • AIエージェントPoC推進:tsuzumiやその他AIを組み込んだアプリケーションの開発および事業化推進
  • tsuzumiのプログラミング能力開発:プログラマー用途向けタスクの性能向上
  • 視覚読解機能の高度化:画像込みのドキュメント理解力向上に向けた研究開発
  • 主要タスク強化:tsuzumiとして特に強化するタスクの能力向上に向けた研究開発(RAG検索要約、等)
  • データ収集/整備:学習データの収集/整備にかかる業務
Ability Knowledge

必要とする知識・スキル・能力・経験

(必須要件)

下記項目の1つ以上に該当する業務経験

  • 自然言語処理技術、もしくは音声・画像処理技術に関する研究開発
  • 機械学習に関わるOSSの実装/改良経験
  • テキストを扱うアプリケーション開発/サーバ構築
  • 大規模言語モデルを活用したPoC構築および事業化推進
  • 大規模言語モデルのチューニングを要する業務
  • 大規模なデータベース構築(主にテキスト、画像のデータ)に関する業務

〈歓迎要件〉

  • 大規模言語モデルの研究開発の業務経験もしくは高い専門性
  • 大規模言語モデルの実行環境を構成するOSSの活用経験
  • 開発業務におけるサブチームリーダとしての業務経験
  • Linux、docker、MySQL等のサーバ技術・データベース技術に関する基礎知識
  • ソフトウエア開発、非機能要件の検証に関する経験
  • 言語処理に関する研究、検証の経験
  • 英語でのコミュニケーション能力
  • 企業での管理職としての業務経験
Person

求める人材像

言語、音声、映像処理系のシステムの開発/構築/維持運用でプロジェクトを推進した経験、特に実用化検証において10名程度のステークホルダーが存在する案件をマネジメントした経験を持つ方。チームメンバの育成やチーム力の向上に貢献し、柔軟性・協調性を持ち、円滑なコミュニケーションができる方。また、新たな領域にも果敢にチャレンジし、高い目標を達成する強い意志を持つ方。色々な業界の人と会話をすることが好きな方。

2.大規模言語モデル開発エンジニア(性能向上、モダリティ拡張、事業化推進)

Mission

業務内容

tsuzumiの研究開発にかかるエンジニアを募集します。以下の業務ポジションを予定しています。

  • tsuzumiの性能向上:言語モデルの基本的な学習や推論にかかる技術検証
  • tsuzumiのモダリティ拡張:tsuzumiが画像を理解するための研究開発
  • AIエージェントPoC推進:tsuzumiやその他AIを組み込んだアプリケーションの開発および事業化推進
  • 主要タスク強化:tsuzumiとして特に強化するタスクの能力向上に向けた研究開発(RAG検索要約、等)
  • データ収集/整備:学習データの収集/整備にかかる業務
Ability Knowledge

必要とする知識・スキル・能力・経験

(必須要件)

下記項目の1つ以上に該当する業務経験(大学院での修学も含む)

  • 自然言語処理技術、もしくは音声・画像処理技術に関する研究開発
  • 機械学習に関わるOSSの実装/改良経験
  • テキストを扱うアプリケーション開発/サーバ構築
  • ウェブサービス(REST APIでの機能提供サービス)を活用したアプリケーション構築および事業化推進
  • 大規模言語モデルのチューニングを要する業務
  • 大規模なデータベース構築(主にテキスト、画像のデータ)に関する業務

〈歓迎要件〉

  • 大規模言語モデルの研究開発の業務経験もしくは高い専門性
  • 大規模言語モデルの実行環境を構成するOSSの活用経験
  • 深層学習ベースのAIモデルの学習・利用、その効率化(MLOpsなど)に関する経験
  • Linux、docker、MySQL等のサーバ技術・データベース技術に関する基礎知識
  • ソフトウエア開発、非機能要件の検証に関する経験
  • 言語処理に関する研究、検証の経験
Person

求める人材像

チームメンバの育成やチーム力の向上に貢献し、柔軟性・協調性を持ち、円滑なコミュニケーションができる方。また、新たな領域にも果敢にチャレンジし、高い目標を達成する強い意志を持つ方。

3.大規模言語モデルプロダクトエンジニア(音声認識+tsuzumi事業化推進)

Mission

業務内容

tsuzumiを活用する事業化PoC案件において、エンジニアリングの支援をする業務です。特に、音声認識とtsuzumiを統合した技術のPoC検証を推進します。開発会社とも連携し、技術の専門家として案件に関わりながら、事業化に向けた検証PoCを推進します。

  • 事業会社、開発会社も含めた事業会社支援に必要なフォーメーションの構築調整
  • 各案件での活用タスクのヒアリング、具体化、上流工程コンサルティング
  • 実データでのチューニング、推論検証などの各種検証工程の推進
  • PoC検証から見えてきた新たな課題のコア研究へのフィードバック
  • 事業化に移行した案件の問い合わせ対応、維持管理
Ability Knowledge

必要とする知識・スキル・能力・経験

(必須要件)

  • 音声信号処理に関連したOSSを用いた推論、チューニング処理に関する実務経験
  • 機械学習に関わるOSSの等各種ツールの一部実装/改良経験
  • 情報工学、数理学のいずれかの領域に関するスキル(大学院修士課程レベル以上)、または社会人として音声処理または自然言語処理分野における開発、システム構築または維持運用で3年以上の経験とスキル
  • 高い目標を達成する強い意志と、新たな領域に挑戦する旺盛な好奇心をお持ちの方
  • 柔軟性・協調性を持ち、円滑なコミュニケーションが図れる方

〈歓迎要件〉

  • 音声処理と自然言語処理を併用したシステム(音声対話システム等)の開発/構築/維持運用経験
  • 大規模データ処理に関する経験
  • HuggingFace等LLMの実行環境を構成するOSSに関する知識
  • 高可用性、高信頼性を実現するシステム開発/構築の経験
  • ソフトウエア開発・商用導入のプロジェクトマネジメント
  • Linux、MySQL等のサーバ技術・データベース技術に関する基礎知識
  • 事業会社とのやりとり、ヒアリングを丁寧に行えるコンサル力や交渉力
Person

求める人材像

チームメンバの育成やチーム力の向上に貢献し、柔軟性・協調性を持ち、円滑なコミュニケーションができる方。また、新たな領域にも果敢にチャレンジし、高い目標を達成する強い意志を持つ方。色々な業界の人と会話をすることが好きな方。

勤務地

横須賀研究開発センタ(神奈川県横須賀市光の丘1-1)
但し、在宅勤務を基本とする。日本全国どこからでもリモートワークにより勤務可能。

研究内容

用語解説

  1. *1 大規模言語モデル(LLM)
    Large Language Models:大量のテキストデータを使って学習された言語モデルで、言語の理解や文章の生成に優れた能力をもつもの。
  2. *2 原発1基1時間分の電力量
    パラメタ数が175BのGPT-3規模の学習に約1300MWhであり(1)、原発1基1時間分の電力量(約1000MWh)と同規模
    (1) https://gizmodo.com/chatgpt-ai-openai-carbon-emissions-stanford-report-1850288635
  3. *3 tsuzumi
    「tsuzumi」は商標出願中です。日本語の処理性能を重視し、産業の発展を牽引する言語モデル技術への期待を、雅楽の合奏の開始の切っ掛けを担う鼓に寄せました。
  4. *4 アダプタチューニング
    事前学習済みモデルの外部に追加されるサブモジュール。ファインチューニングの際に事前学習済みモデルのパラメタを固定したままアダプタのパラメタのみを更新することで、計算コストの高いベースモデルの再学習を行わずに知識を学習することができる。
  5. *5 マルチモーダル
    AIへの入力情報の種類(テキスト、画像、音声など)をモーダルと言い、これらの異なる入力情報を組み合わせて使う能力をもった人工知能の特性を指す言葉。

関連する記事