Education
October 2020 - September 2023
Ph.D. in Informatics, Kyoto University
Research Fellow (DC1), JSPS Research Fellowships for Young Scientists
April 2019 - September 2020
M.S. in Informatics, Kyoto University
April 2015 - March 2019
B.E. in Design, Kyushu University
Work Experience
Feburary 2025 - Present
Senior Machine Learning Engineer, PlayStation
October 2023 - December 2024
Computer Vision Research Engineer, LY Corporation
Softwares
-
line/lighthouse,
A user-friendly library for reproducible video moment retrieval and highlight detection (MR-HD). It supports six models, three features, and five datasets. In addition, we prepare an inference-only API and demo for developers to use MR-HD methods easily.
-
Shutoh,
A fast scene detector implemented in C++20. Inspired by PySceneDetect, Shutoh aims to provide a powerful and flexible alternative with enhanced performance. Shutoh achieves 2x~4x faster than PySceneDetect and supports not only rule-based (PySceneDetect), but also ML-based and neural-based scene detectors.
Publication
International Journal
-
Text-driven Affordance Learning from Egocentric Vision,
Advanced Robotics,
Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori
-
Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval,
ACM Transactions on Multimedia Computing, Communications, and Applications (ACM TOMM),
Taichi Nishimura, Shota Nakada, Masayoshi Kondo
-
Recipe Generation from Unsegmented Cooking Videos,
ACM Transactions on Multimedia Computing, Communications, and Applications (ACM TOMM),
[code]
Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
-
State-aware Video Procedural Captioning,
Multimedia Tools and Applications (MTAP) Vol 82 (24),
Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
-
Structure-Aware Procedural Text Generation from an Image Sequence,
IEEE Access Vol. 9,
[slide]
Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, Yoko Yamakata, and Shinsuke Mori
International Conference
-
DCASE 2026 Challenge 6: Audio Moment Retrieval from Long Audio,
IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events Workshop (DCASE26 Workshop),
[code]
Hokuto Munakata, Tatsuya Komatsu, Keisuke Imoto, Taichi Nishimura, Paul Primus, Huang Xie, Tuomas Virtanen
-
Developing Vision-Language-Action Model from Egocentric Videos,
IEEE International Conference on Robotics and Automation (ICRA26),
Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori
-
CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries,
IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP26),
[code]
[slide]
Hokuto Munakata, Takehiro Imamura, Taichi Nishimura, Tatsuya Komatsu
-
EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts,
The ICCV Workshop on AI-driven Skilled Activity Understanding, Assessment & Feedback Generation in conjunction with ICCV25 (SAUAFG25),
[code]
Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori
-
BioVL-QR: Egocentric Biochemical Vision-and-Language Dataset Using Micro QR Codes,
IEEE International Conference on Image Processing (ICIP25),
[code]
[slide]
Tomohiro Nishimoto, Taichi Nishimura, Koki Yamamoto, Keisuke Shirai, Hirotaka Kameko, Yuto Haneji, Tomoya Yoshida, Keiya Kajimura, Taiyu Cui, Chihiro Nishiwaki, Eriko Daikoku, Natsuko Okuda, Fumihito Ono, Shinsuke Mori
-
Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision,
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR25),
[code]
[slide]
Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori (Highlight)
-
Language-based Audio Moment Retrieval,
IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP25),
[code]
[slide]
Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
-
DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information,
IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP25),
Shota Nakada, Taichi Nishimura, Hokuto Munakata, Tatsuya Komatsu
-
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos,
IEEE/CVF Winter Conference on Applications of Computer Vision (WACV25),
Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato
-
Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection,
The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP24) - System Demonstration Track,
[code]
Taichi Nishimura, Shota Nakada, Hokuto Munakata, Tatsuya Komatsu
-
Pre-trained models, Datasets, Data Augmentation, and Inference Time Augmentation for Language-based Audio Retrieval,
IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events Workshop (DCASE24 Workshop),
Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
-
Training Strategy of Massive Text-to-audio Models and GPT-based Query-Augmentation,
IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events Challenge Task 8: Language-Based Audio Retrieval (DCASE24 Challenge),
Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
-
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos,
The 1st Workshop on Learning from Procedural Videos and Language in conjunction with CVPR2024 (LPVL24),
Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato
-
Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks,
The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING2024),
Keyaki Ohno, Hirotaka Kameko, Keisuke Shirai, Taichi Nishimura and Shinsuke Mori
-
Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows,
The 29th International Conference on Computational Linguistics (COLING2022),
[code]
Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko, Shuhei Kurita, Yoshitaka Ushiku and Shinsuke Mori
-
Multimodal Dish Pairing: Predicting Side Dishes to Serve with a Main Dish,
The 1st International Workshop on Multimedia for Cooking, Eating, and related APPlications 2022 in conjunction with ACMMM2022 (CEA++2022),
Taichi Nishimura, Katsuhiko Ishiguro, Keita Higuchi, and Masaaki Kotera (Best Paper Award)
-
Recipe Recommendation for Balancing Ingredient Preference and Daily Nutrients,
The 1st International Workshop on Multimedia for Cooking, Eating, and related APPlications 2022 in conjunction with ACMMM2022 (CEA++2022),
Sara Ozeki, Masaaki Kotera, Katsuhiko Ishiguro, Taichi Nishimura, Keita Higuchi
-
Multimedia Retrieval of Historical Materials,
Digital Humanities 2022 (DH2022),
Jieyong Zhu, Taichi Nishimura, Makoto Goto, and Shinsuke Mori
-
Image Description Dataset for Language Learners,
The 13th International Conference on Language Resources and Evaluation (LREC2022),
Kento Tanaka, Taichi Nishimura, Hiroaki Nanjo, Keisuke Shirai, Hirotaka Kameko, and Masatake Dantsuji
-
Cross-modal Representation Learning for Understanding Manufacturing Procedure,
The 23th International Conference on Human-Computer Interaction (HCII2022),
Atsushi Hashimoto, Taichi Nishimura, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
-
State-aware Video Procedural Captioning,
The 29th ACM International Conference on Multimedia (ACMMM2021),
[code]
Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
-
Egocentric Biochemical Video-and-Language Dataset,
The 4th Workshop on Closing the Loop Between Vision and Language in conjunction with ICCV2021 (CLVL2021),
Taichi Nishimura, Kojiro Sakoda, Atsushi Hashimoto, Yoshitaka Ushiku, Natsuko Tanaka, Fumihito Ono, Hirotaka Kameko, and Shinsuke Mori
-
Visual Grounding Annotation of Recipe Flow Graph,
The 12th International Conference on Language Resources and Evaluation (LREC2020),
Taichi Nishimura, Suzushi Tomori, Hayato Hashimoto, Atsushi Hashimoto, Yoko Yamakata, Jun Harashima, Yoshitaka Ushiku and Shinsuke Mori
-
Procedural Text Generation from a Photo Sequence,
The 12th International Conference on Natural Language Generation (INLG2019),
[slide]
Taichi Nishimura, Atsushi Hashimoto, and Shinsuke Mori
-
Frame Selection for Producing Recipe with Pictures from an Execution Video of a Recipe,
The 11th Workshop on Multimedia for Cooking and Eating Activities in conjunction with ICMR2019 (CEA2019),
[slide]
Taichi Nishimura, Atsushi Hashimoto, Yoko Yamakata, and Shinsuke Mori (Best Paper Award)
Preprint
Domestic Journal and Conference (Japanese)
Please click here
-
歴史資料を対象とした画像とテキストのクロスモーダル検索,
情報処理学会論文誌.
亀甲 博貴, 朱,捷咏, 西村 太一, 後藤 真, 森 信介
-
BioVL-QR: マイクロQRコードを用いた生化学分野の一人称視覚言語データセット,
第28回 画像の認識・理解シンポジウム (MIRU2025).
西本 智裕, 西村 太一, 山本 航輝, 白井 圭佑, 亀甲 博貴, 羽路 悠斗, 吉田 智哉, 梶村 恵矢, 崔 泰毓, 西脇 千紘, 大黒 恵理子, 奥田 奈津子, 小野 富三人, 森 信介
-
ICASSP2025における音響-言語モデルの動向,
電気音響研究会 / 応用音響研究会.
宗像 北斗, 西村 太一, 仲田 勝太, 小松 達也
-
音響特徴量を活用した動画内区間検索及びハイライト検出,
第152回 日本音響学会 (ASJ2024).
今村 剛大, 西村 太一, 小松 達也, 戸田 智基
-
自然言語による音響区間検索,
第152回 日本音響学会 (ASJ2024).
宗像 北斗, 西村 太一, 仲田 勝太, 小松 達也
-
Lighthouse: 再現可能で使いやすい動画区間検索のライブラリ,
第27回 画像の認識・理解シンポジウム (MIRU2024).
西村 太一
-
音を発生させる物体を考慮した視聴覚表現学習,
第27回 画像の認識・理解シンポジウム (MIRU2024).
仲田 勝太, 西村 太一, 宗像 北斗, 小松 達也, 近藤 雅芳
-
動画生成における文字崩れの評価のためのデータセットと評価指標の提案,
第27回 画像の認識・理解シンポジウム (MIRU2024).
青嶋 雄大, 西村 太一, 近藤 雅芳
-
一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習,
言語処理学会第30回年次大会 (NLP2024).
吉田 智哉, 栗田 修平, 西村 太一, 森 信介
-
EgoOops!データセット: 手順書に従う作業の一人称映像への作業誤りアノテーション,
言語処理学会第30回年次大会 (NLP2024).
羽路 悠斗, 西村 太一, 山本 航輝, 梶村 恵矢, 崔 泰毓, 亀甲 博貴, 森 信介
-
一人称視点動画を用いたマルチモーダル作業支援システム,
言語処理学会第30回年次大会 (NLP2024).
梶村 恵矢, 西村 太一, 羽路 悠斗, 山本 航輝, 崔 泰毓, 亀甲 博貴, 森 信介
-
一人称視点動画を用いたマルチモーダル作業支援システムの提案,
第31回インタラクティブシステムとソフトウェアに関するワークショップ (WISS2023).
梶村 恵矢, 西村 太一, 羽路 悠斗, 山本 航輝, 崔 泰毓, 亀甲 博貴, 森 信介
-
調理動作後の物体の視覚的状態予測を目指したVisual Recipe Flowデータセットの構築と評価,
自然言語処理 Vol 30 (3).
白井 圭佑, 橋本 敦史, 西村 太一, 亀甲 博貴, 栗田 修平, 森 信介
-
「BioVL2データセット: 生化学分野における一人称視点の実験映像への言語アノテーション」の研究経緯,
自然言語処理.
西村 太一
-
大規模言語モデルからの知識抽出に基づく画像からのスクリプト予測の検討,
言語処理学会第29回年次大会 (NLP2023).
八木 拓真, 西村 太一, 清丸 寛一, 唐井 希
-
株式投資家の関心を考慮したニュース記事抽出によるストーリー生成,
言語処理学会第29回年次大会 (NLP2023).
木下 聖, 西村 太一, 亀甲 博貴, 森 信介
-
テキスト中の場所表現認識と係り受けに基づく緯度経度推定ツールの開発,
言語処理学会第29回年次大会 (NLP2023).
大野 けやき, 西村 太一, 亀甲 博貴, 森 信介
-
VideoCLIPを用いた実験動画からのプロトコル生成,
言語処理学会第29回年次大会 (NLP2023).
山本 航輝, 西村 太一, 亀甲 博貴, 森 信介
-
単語の階層関係に基づくデータ拡張を利用した画像キャプション生成の検討,
言語処理学会第29回年次大会 (NLP2023).
吉田 智哉, 西村 太一, 亀甲 博貴, 森 信介
-
テキストアナリティクスツールのログからの実験設定の説明文生成,
言語処理学会第29回年次大会 (NLP2023).
森田 康介, 西村 太一, 亀甲 博貴, 森 信介
-
BioVL2データセット: 生化学分野における一人称視点の実験映像への言語アノテーション,
自然言語処理 Vol 29 (4).
[code]
西村 太一, 迫田 航次郎, 牛久 敦, 橋本 敦史, 奥田 奈津子, 小野 富三人, 亀甲 博貴, 森 信介 (論文賞)
-
ユーザ嗜好と栄養摂取基準に基づくレシピ推薦手法の開発,
第30回インタラクティブシステムとソフトウェアに関するワークショップ (WISS2022).
尾関 沙羅, 小寺 正明, 石黒 勝彦, 西村 太一, 樋口 啓太
-
テキストマイニングツールのログからの実験設定の説明文生成,
第253回自然言語処理研究会 (NL253).
森田 康介, 西村 太一, 亀甲 博貴, 森 信介
-
映像からのストーリー生成: イベント選択器と文生成器の同時学習,
言語処理学会第28回年次大会 (NLP2022).
西村 太一, 橋本 敦史, 牛久 祥孝, 森 信介
-
生化学分野におけるVideo&Languageデータセットの構築,
言語処理学会第28回年次大会 (NLP2022).
迫田 航次郎, 西村 太一, 森 信介, 小野 富三人, 田中 奈津子
-
市民科学でのアノテーション作業支援と作業者の能力向上支援,
言語処理学会第28回年次大会 (NLP2022).
星島 洸明, 西村 太一, 亀甲 博貴, 森 信介
-
画像描写問題における学習者作文の訂正文生成,
言語処理学会第28回年次大会 (NLP2022).
田中 健斗, 西村 太一, 南條 浩輝, 白井 圭佑, 亀甲 博貴
-
Cross-modal Retrieval of Historical Materials,
言語処理学会第28回年次大会 (NLP2022).
Jieyong Zhu, Taichi Nishimura, Makoto Goto, Shinsuke Mori
-
写真描画問題における自動採点手法の検討,
2021年度 人工知能学会全国大会 (JSAI2021).
田中 健斗, 西村 太一, 白井 圭佑, 亀甲 博貴, 森 信介
-
手順構造を考慮した作業映像からの手順書生成,
言語処理学会第27回年次大会 (NLP2021).
西村 太一, 橋本 敦史, 牛久 祥孝, 森 信介
-
手順構造を考慮した手順書からの作業画像検索,
言語処理学会第27回年次大会 (NLP2021).
迫田 航次郎, 西村 太一, 森 信介
-
複数作業者を想定したアノテーションツールの作成と機能の検討,
言語処理学会第27回年次大会 (NLP2021).
星島 洸明, 西村 太一, 亀甲 博貴, 森 信介
-
手順構造を考慮した写真列からの手順書生成,
京都大学ICTイノベーション.
西村 太一
-
写真列と構造要素からの手順構造と手順書の同時学習,
言語処理学会第26回年次大会 (NLP2020).
西村 太一, 橋本 敦史, 牛久 祥孝, 森 信介
-
レシピフローグラフへのVisual Groundingアノテーション,
言語処理学会第26回年次大会 (NLP2020).
西村 太一, 友利 涼, 橋本 隼人, 橋本 敦史, 山肩 洋子, 原島 純, 牛久 祥孝, 森 信介
-
重要語に着目した写真列からのレシピの自動生成,
自然言語処理 Vol. 27 (2).
西村 太一, 橋本 敦史, 森 信介
-
作業写真列からの手順書の自動生成,
ヒューマンコミュニケーション基礎研究会 (HCS).
西村 太一, 橋本 敦史, 森 信介
-
Bounding Boxを付与したフローグラフコーパスの提案,
自然言語処理若手の会 (yans2019).
西村 太一, 橋本 敦史, 原島 純, 山肩 洋子, 森 信介
-
写真付き手順書生成のための実施映像からのフレーム選択,
第11回データ工学と情報マネジメントに関するフォーラム (DEIM2019).
西村 太一, 橋本 敦史, 山肩 洋子, 森 信介
-
テキスタイルセンサを用いた腹巻型笑いログシステムによる笑い検出の検討,
第22回日本バーチャルリアリティ学会 (VRSJ2017).
島﨑 郁花, 西村 太一, 上岡 玲子
Academic Activities
Journal reviewer: IEEE Transactions on Multimedia, Advanced Robotics, Journal of Natural Language Processing, Multimedia Systems
Conference reviewer: SLT, Interspeech, WACV, ECCV, LREC