Staff interview
#52

01. 担当者プロフィール

担当者プロフィール
- お名前:Vincent Isambart / ヴァンサン・イザンバル
- 組織名:教育支援小中高プロダクト開発部
- 入社時期:2023年 11月
今、生成AI技術の活用がさまざまな分野で模索されています。小中iOS開発グループでiOSアプリの開発に携わるVincent Isambart(ヴァンサン・イザンバル)さんは、生成AI技術を活用して講義動画に日本語字幕を生成する仕組みを実現しました。字幕を生成するだけでなく、LLM(大規模言語モデル)を用いて校正を加えることで、誤りを許容できる範囲内に押さえつつ人間の翻訳者が字幕を作成する場合に比べ低コストで実現しています。その取り組みについて詳しくお話を伺いました。

02. 漫画やアニメを通して日本に親近感を抱き、「社会貢献」のために『スタディサプリ』に
Q:ご出身はフランスなのですか。
イザンバル:はい。フランス生まれ、フランス育ちです。僕の名前はフランス語では「ヴァンサン」と呼びますが、母音や子音の少ない日本語では発音が難しいようで、「ヴァンさん」と呼ばれることも多いですね。
元々数学などが得意な方で、パソコンをいじるのも好きだったこともあり、大学ではコンピュータサイエンスを専攻しました。
Q:日本語はどのようにして学ばれたのですか。
イザンバル:独学で学びました。フランスでは日本の漫画やアニメの人気が高く、僕も前からいろいろな日本のコンテンツを見ていました。ジャンプなどの漫画は今も愛読しています。加えて、海外で仕事をしてみたいという思いもあったことから2008年に来日し、ずっとこちらでエンジニアとして仕事をしています。
Q:これまでどのような仕事をしてきたのですか。
イザンバル:前職では7年ほどiOS向けのアプリケーション(以下アプリ)開発に携わっていました。アプリ本体というよりアプリの基盤整備やツール開発が中心でしたが、そこで開発者としての経験を積むことができたのは大きな財産だと思います。
ただ、コロナ禍をきっかけに「自分は何をやりたいのか」をあらため て考えるようになりました。世の中のためになるような仕事、社会貢献につながる仕事がしたいと考え、リクルートで『スタディサプリ』に携わることを選びました。

03. 生成AIにつきもののミスをさまざまな工夫で減らし、周囲を説得
Q:今回MVPを受賞したプロジェクトは、生成AIを活用して講義動画に字幕を付けるというものでした。何かきっかけがあったのでしょうか。
イザンバル:このアイデアを思いついたのは、リクルートが定期的に行っている上長との面談の中で、「自分は何をやりたいのか」を尋ねられたことがきっかけでした。
Q:あの有名な問いかけですね。
イザンバル:そうです。本当にいろいろと悩み、他の人以上に考えたと思います。結局、『スタディサプリ』を選んだ理由の1つでもある社会貢献というところに立ち戻り、社会の役に立つには何をするべきかを考えて「アクセシビリティ」に行き着きました。
Q:アクセシビリティというと、ハンディキャップを抱えた方向けの読み上げ支援といったイメージがありますが、なぜ字幕を選んだのでしょうか。
イザンバル:アクセシビリティといっても幅広く、目の見え ない方向けのスクリーンリーダーもありますし、文字を大きく表示する技術もあります。字幕もその1つです。
僕は母国語が日本語でも英語でもないため、普段からそれらの字幕を付けて動画を見ることが多いんです。大半の内容は分かるのですが、聞き取れない言葉や普段見かけないような複雑な単語、固有名詞などが出てきたときは、字幕がある方が「ああ、なるほど」って理解できるんですよね。『Whisper』というツールも試してみたこともありました。ですので、まずこの路線で試してみてもいいんじゃないかなと考えました。
さらに、コンセプトを周囲に理解してもらうには、実際に動くものがあった方がいいのではないかと考えてプロトタイプを作り、『スタディサプリ』の既存の講義動画に対して字幕を生成し、サンプル動画を用意しました。このサンプル動画が、みなさんに理解してもらうのに大変役に立ちました。サンプル動画を作成したのは2024年の1月か2月頃で、2025年2月になってようやく正式に機能を出すことができました。
Q:リリースまで時間がかかった理由は、生成AI機能の実装が大変だったからですか。
イザンバル:いいえ、実装自体にかかった時間はそれほど長くありませんでした。一番難しくて時間を要したのは技術面ではなく、プロダクトに関わる人たちに理解してもらうことでした。
Q:どんなところを理解してもらうのが難しかったのでしょうか。
イザンバル:古いIssueを見てもわかるとおり、「講義動画に字幕を付けたほうがいいんじゃないか」という話は以前からありました 。Slackには字幕に関する要望を集めたチャンネルまであったほどです。
ただ、最大の課題はコストでした。もし動画が10時間分だけならば、安くはないものの実現自体は容易なんですよ。けれど、『スタディサプリ』には4万本に上る大量の動画があります。そのすべてに字幕を付ける作業を人間がやるのは現実的ではありません。
そこで生成AIが役に立つんですが、生成AIは人に比べて正確性が低く、ミスが多くなります。生成AIはどんどん進化していますから、もしかしたら5年後にはミスなしで字幕を作れるようになる可能性もありますが、現状ではどんなに優れた生成AIでもミスは避けられません。
そういったミスが一定ある状態でも『スタディサプリ』の機能として出していいものだろうか、という点について慎重に検討する必要があります。社内の関係者はもちろん、先生方など社外の方にもさまざまな意見をいただきながら、リリースに向けて合意形成することが、プロジェクトの中で最も苦労した点でした。
Q:学びというプロダクトの性質を考えると、ミスや嘘が混じってはいけないという意見もよく分かります。どのように理解してもらったのでしょうか。
イザンバル:プロダクトマネジャーの助けも得ながら、プロトタイプを試してもらい、先生方にアンケートを取ったり、ヒアリングを通して、直接温度感を確認していきました。同時に、社内のコンテンツチームにも見てもらい、どういったミスが起こり得るかを検討してもらいました。
実際、最初に作成したプロトタイプではそれなりにミスが発生しました。ですので、さらにAIを組み合わせることで改善できないかをさらに検証していきました。まず、動画を元に生成AIで字幕を作成します。そこには当然ミスが含まれるのですが、生成した字幕データを動画のテキストとともにさらに別の生成AIに渡し、字幕を校正してもらうようにしてみました。すると、全体として大きなミスを減らせることが見えてきました。
こうした極力字幕のミスを減らせるようになったことや、実際に字幕をご覧いただいた先生方から「大丈夫でしょう」と言っていただくなどの利用者のお声を踏まえて、字幕機能のリリースに至りました。
これを踏まえてコンテンツチームからOKをもらい、先生方にも「大丈夫でしょう」と言ってもらうことができ、社内のゴーサインが出たという形です。

Q:この方法によって、人に翻訳を依頼する場合に比べてかなり低いコストで字幕を実現できたんでしょうか。
イザンバル:そうです。これまでに3つの講座を対象に生成AIを用いて字幕を付けました。一番長いもので30時間分ありますが、人に依頼するよりも非常に安くすみました。
ただ、AIのコストは意外と高いことも事実です。中には安価なAIもありますが、精度が下がってしまうため、本案件では使うことはできません。そのため、コストに配慮する必要がありました。
個人でChatGPTを使う分にはそんなに気になら ないかもしれませんが、たとえば、一気に10時間分の字幕を校正させると想像以上にコストがかさみます。また、生成AIをその都度活用すると、想像以上にコストがかかってしまいます。検証の時点でその課題に気付いたため、コストも意識し、1つの時間帯に出る字幕ごとに校正するのではなく20個づつ校正してもらうといった具合に工夫しながら実装しました。
もう1つ生成AIでは特定の課題があります。まったく同じ質問をしても、毎回同じ回答が返ってくるわけではないことです。投げるプロンプトを変更してうまくいったとしても、それが改善の結果なのか、それともたまたまだったのかどうかの判断が難しいんです。うまくいったと思ってOKを出しても、チェックしていない部分では校正精度がそれほど高くなかったこともあります。何回も投げて平均的に向上しているかどうかを見ていく必要があり、普通のプログラミングでAPIを叩くのに比べやりづらいところではありました。
Q:ここは生成AIの面倒でもあり、面白い部分でもありますね。
イザンバル:そうですね。こうした部分に挑戦していかなければ、技術者としてトレンドに置いていかれるという危機感もあります。同時に、進化が速すぎるからこそ、今の時点で急いでノウハウを貯めても、一年後にどれだけ通用するのかという懸念もあります。
とはいえ、僕にとっては生成AIを使った初めてのプロジェクトだったため、本当に勉強になりましたし、今後も生成AIを活用してできることがさらにあると思っています。特に、アクセシビリティ回りではあちこちで役に立てると思うんですよね。
たとえば、目が見えない方向けに写真にキャプションを付けておくのはアクセシビリティの基本中の基本ですが、人手でやろうとすると時間とお金がかかります。そもそも、キャプション付けをやったことのない人からすると、何を書けばよいのかすらわからないかもしれません。同じ写真でも、時と場合によって、用途によって必要な説明は変わってくるからです。もちろん、生成AIの特性を踏まえて実装するには慎重に検討する必要がありますが、こういった部分でも生成AIが活用できるのではないかと期待しています。
Q:生成AIをコーディングに用いることは検討していませんか。
イザンバル:現時点ではどの程度使えるかは不透明だと思っています。生成AIは新規にシンプルなものを作る分にはよいのですが、既存のプロダクトに機能を追加するとなるとまだ効果は限定的なように思います。
もう1つ懸念しているのは、エンジニアが初めから生成AIを使ってコーディングをするようになると、レビューの負荷が高まり、いざ問題が起きたときの修正が困難になるのではないかという点です。ある程度エンジニアが内容を理解した上で使わないと、将来的なメンテナンスのコストが心配ですね。

04. 今回の経験を糧に、プロダクトにも深く関われるようなエンジニアに
Q:字幕に対しては、これまでにどんなフィードバックがありましたか。
イザンバル:機能をリリースしたばかりで、字幕付きの動画も全体から見るとまだ少ないため、フィードバックはあまり多くはありません。現状ではWeb版のみというのも心残りで、できればiOSやAndroid版でも対応していければと考えています。
Q:今回の経験を通して、入社の大きな動機だった社会貢献につながったと思いますか。
イザンバル:そうですね。『スタディサプリ』は非常に多くの学校で採用していただいており、『スタディサプリ』を改善することが数多くの生徒たちのためになると考えていますので、とても刺激になっています。前職では基盤側だったのですが、プロダクトにより近い立場になり、プロダクトマネジャーと議論を交わしながら改善していける部分も面白いなと思っています。
Q:今回の経験をまわりのエンジニアにどのように伝えていきたいですか。
イザンバル:僕の方から、経験のあるエンジニアとしていろいろと教える機会もあります。また、今回の取り組みについて詳しく説明するブログも公開しており、もし僕が他のプロジェクトに移ることがあっても、他の人が引き継いでいけるようになっています。
Q:この先、ご自身はどのようなキャリアを歩んでいくつもりですか。
イザンバル:僕はマネジャー的な業務にはあまり興 味がなかったし、向いていないと思っていました。ですが今回のプロジェクトでもそうですが、エンジニアとしてのロールを軸にしながら、プロダクトに対するこだわりを持ち、提案を行うといった経験を積めています。これからも高い技術力を持ちつつ、プロダクトにも深く関われるようなエンジニアになれたらいいなと思っています。
『スタディサプリ』についてはアクセシビリティをさらに高め、どのような障がいを持っている方に対しても教育の機会を提供できるようにしたいと思っています。たとえば、字幕は、障がいのある方だけでなく健常者にとっても有用なんです。字幕があれば音を出せない環境でも学べますし、文字が大きくなればメガネのないときでも内容を読み取れます。できるだけ多くの人がこのサービスをより便利に使えるようにしていきたいと思っています。
記事中で紹介した事業(名称や内容含む)や人物及び肩書については取材当時のものであり、現時点で異なる可能性がございます