Keep Innovating! Blog

Keep Innovating! Blog

情報処理学会 MPS研究会でTransformerモデル圧縮に関する研究発表を行いました

AI 活動報告 アカデミック 画像認識
寺田英雄

 こんにちは、CTOの寺田です。当社では以前から電気通信大学の庄野研究室さんとAI技術の共同研究を行っていますが、いろいろ思う所あって、私も 2021年4月から同大学の博士課程に入学して研究活動を行っています。つまり、現在はCTO業務と学生という「二足のわらじ」状態です。

 コロナ禍のお陰で企業でも大学でもリモートワークが常識となったことで、こうした活動スタイルが可能となりました。コロナ禍はもちろん大変な社会問題であり、世の中に大きなダメージを与えましたが、こういったポジティブな変化を世の中にもたらした側面もありますね。

 しかし、やはり仕事と学業の兼業はなかなか大変で、私の研究もなかなか想定どおり進んでいません(^_^;)。なんとか時間をやりくりしながらコツコツ進めています。でも研究は好きですし、長期間同じテーマに取組むのは得意でもあるので、この状況を楽しんでいます。

 さて今回は、その研究活動の一貫として、6月29日〜7月1日に開催された第143回 MPS研究会にて、研究発表をいたしましたので、その報告をしたいと思います。

MPS研究会とは

 MPS研究会は、情報処理学会 数理モデル化と問題解決(MPS)研究会のことで、1995年に設立され、問題の数理的把握とモデル化及びその有効な解決手法の開発に関する研究交流の場として活動されています。詳細はこちらをご覧ください。

発表内容:画像間対応点検知のためのTransformerモデルの小型化

 今回私が発表したのは、私の研究テーマの途中段階の報告です。発表のタイトルは「画像間対応点検知のための Transformerモデルの小型化」で、具体的には COTRというTransformerを用いた画像の対応点検知モデルについて、蒸留によって小型化を行った件についての報告です。

写真:発表の様子
発表スライド(クリックすると閲覧できます)

 画像間対応点検知は、私の研究のメインテーマである V-SLAM や Visual Odometry、画像検索等における重要な画像処理機能です。20年以上前からさまざまなアプローチで研究されている分野ですが、近年では、やはり Transformerを用いた機械学習モデル(例:LoFTR, COTR, CasMTRなど)が有望視されています。しかし、これらのモデルは容量が大きく、私のもう一つの研究テーマであるエッジAI 環境では扱いにくいという課題があります。

 そこで、本研究ではCOTRを例として蒸留技術を用いたモデルの小型化を試み、モデルのパラメータ数の51%削減に成功しました。特に、Transformerの小型化に重み行列のSVD化という工夫を加えていることがポイントです。これにより、エッジAI環境でも高性能な画像間対応点検知が可能となり、その応用範囲を広げられるのでは、と考えています。

当日の様子

 今回の研究会は、沖縄のOIST(沖縄科学技術大学院大学)で開催されました。OISTは国立の大学院大学ですが、色んな意味で既存の国立大学とは全く違う造りで、沖縄の恩納村の美しいビーチのそばにあって、まるで南国のリゾートホテルのようなとても素晴らしい場所でした。

写真 OISTメインキャンパス全景(OISTサイトより)

 研究発表は、OISTのカンファレンスセンターの講堂で行いました。こちらもとても立派で洒落たデザインの会議場で、私も少し高揚した気持ちで発表ができました。

写真 OISTカンファレンスセンターの講堂(OISTサイトより)

 余談ですが、OISTは海外ドラマ「スタートレック・ピカード(シーズン1)」に、そっくりな研究所が登場してましたね。このドラマを見ていたのでちょっとした聖地巡礼気分も味わえました。

 さらに余談。一般的な国立大学には、大学生協があり、そこで大学ロゴ入りの文房具などの、大学グッズが販売されていることが多いのですが、OISTの売店は生協ではなく、そういった大学グッズはありませんでした。私は大学グッズをお土産に買うのが好きなので、そこはちょっと残念でした。

今後の展開

発表後には、いくつか質問や指摘をいただきました。それらは今後の研究の参考になる内容で、ありがたかったです。今後は、これらも参考にしてさらに研究を発展させ、小型軽量で高性能なモデルを目指していきたいと思います。

以上、第143回 MPS研究会での発表内容とその経験についての報告でした。これからも研究を進め、その成果を共有していきたいと思います。

最後までお読みいただき、ありがとうございました。

参考文献

W. Jiang, E. Trulls, J. Hosang, A. Tagliasacchi, K. M. Yi, COTR: Correspondence transformer for matching across images in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), (IEEE, 2021) https:/doi.org/10.1109/iccv48922.2021.00615 (November 5, 2022).

J. Sun, Z. Shen, Y. Wang, H. Bao, X. Zhou, LoFTR: Detector-Free Local Feature Matching with Transformers. arXiv [cs.CV] (2021).

C. Cao, Y. Fu, Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative Keypoints. arXiv [cs.CV] (2023).


著者プロフィール

名前: 寺田英雄

株式会社オープンストリーム 執行役員/CTO
技術創発推進室 室長

1980年代からプログラミングを始めて現在に至る現役プログラマ。BASIC・アセンブラ・C・C++など、今で言う低レイヤプログラミングから、MS-DOS、UNIX、Windows などのOSドライバやネイティブアプリケーション開発を経て、近年のWeb開発、クラウドシステム、モバイルアプリ開発まで幅広く実践。最近はPythonを使うことが多いが、Rustも研究中。

専門分野としては、画像処理、プラント・ロボット等の制御システム、画像認識、機械学習、AIなど。近年は、電気通信大学さんとの共同研究を通じて機械学習やAIの研究に重点を置いている。

タグ
メンバー
ページトップ