Taichi Nishimura, Ph.D.- Ph.D. in Informatics

Publication

International Journal

Text-driven Affordance Learning from Egocentric Vision, Advanced Robotics, Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori
Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval, ACM Transactions on Multimedia Computing, Communications, and Applications (ACM TOMM), Taichi Nishimura, Shota Nakada, Masayoshi Kondo
Recipe Generation from Unsegmented Cooking Videos, ACM Transactions on Multimedia Computing, Communications, and Applications (ACM TOMM), [code] Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
State-aware Video Procedural Captioning, Multimedia Tools and Applications (MTAP) Vol 82 (24), Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
Structure-Aware Procedural Text Generation from an Image Sequence, IEEE Access Vol. 9, [slide] Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, Yoko Yamakata, and Shinsuke Mori

International Conference

DCASE 2026 Challenge 6: Audio Moment Retrieval from Long Audio, IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events Workshop (DCASE26 Workshop), [code] Hokuto Munakata, Tatsuya Komatsu, Keisuke Imoto, Taichi Nishimura, Paul Primus, Huang Xie, Tuomas Virtanen
Developing Vision-Language-Action Model from Egocentric Videos, IEEE International Conference on Robotics and Automation (ICRA26), Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori
CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries, IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP26), [code] [slide] Hokuto Munakata, Takehiro Imamura, Taichi Nishimura, Tatsuya Komatsu
EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts, The ICCV Workshop on AI-driven Skilled Activity Understanding, Assessment & Feedback Generation in conjunction with ICCV25 (SAUAFG25), [code] Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori
BioVL-QR: Egocentric Biochemical Vision-and-Language Dataset Using Micro QR Codes, IEEE International Conference on Image Processing (ICIP25), [code] [slide] Tomohiro Nishimoto, Taichi Nishimura, Koki Yamamoto, Keisuke Shirai, Hirotaka Kameko, Yuto Haneji, Tomoya Yoshida, Keiya Kajimura, Taiyu Cui, Chihiro Nishiwaki, Eriko Daikoku, Natsuko Okuda, Fumihito Ono, Shinsuke Mori
Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR25), [code] [slide] Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori (Highlight)
Language-based Audio Moment Retrieval, IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP25), [code] [slide] Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information, IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP25), Shota Nakada, Taichi Nishimura, Hokuto Munakata, Tatsuya Komatsu
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos, IEEE/CVF Winter Conference on Applications of Computer Vision (WACV25), Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato
Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection, The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP24) - System Demonstration Track, [code] Taichi Nishimura, Shota Nakada, Hokuto Munakata, Tatsuya Komatsu
Pre-trained models, Datasets, Data Augmentation, and Inference Time Augmentation for Language-based Audio Retrieval, IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events Workshop (DCASE24 Workshop), Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
Training Strategy of Massive Text-to-audio Models and GPT-based Query-Augmentation, IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events Challenge Task 8: Language-Based Audio Retrieval (DCASE24 Challenge), Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos, The 1st Workshop on Learning from Procedural Videos and Language in conjunction with CVPR2024 (LPVL24), Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato
Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks, The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING2024), Keyaki Ohno, Hirotaka Kameko, Keisuke Shirai, Taichi Nishimura and Shinsuke Mori
Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows, The 29th International Conference on Computational Linguistics (COLING2022), [code] Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko, Shuhei Kurita, Yoshitaka Ushiku and Shinsuke Mori
Multimodal Dish Pairing: Predicting Side Dishes to Serve with a Main Dish, The 1st International Workshop on Multimedia for Cooking, Eating, and related APPlications 2022 in conjunction with ACMMM2022 (CEA++2022), Taichi Nishimura, Katsuhiko Ishiguro, Keita Higuchi, and Masaaki Kotera (Best Paper Award)
Recipe Recommendation for Balancing Ingredient Preference and Daily Nutrients, The 1st International Workshop on Multimedia for Cooking, Eating, and related APPlications 2022 in conjunction with ACMMM2022 (CEA++2022), Sara Ozeki, Masaaki Kotera, Katsuhiko Ishiguro, Taichi Nishimura, Keita Higuchi
Multimedia Retrieval of Historical Materials, Digital Humanities 2022 (DH2022), Jieyong Zhu, Taichi Nishimura, Makoto Goto, and Shinsuke Mori
Image Description Dataset for Language Learners, The 13th International Conference on Language Resources and Evaluation (LREC2022), Kento Tanaka, Taichi Nishimura, Hiroaki Nanjo, Keisuke Shirai, Hirotaka Kameko, and Masatake Dantsuji
Cross-modal Representation Learning for Understanding Manufacturing Procedure, The 23th International Conference on Human-Computer Interaction (HCII2022), Atsushi Hashimoto, Taichi Nishimura, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
State-aware Video Procedural Captioning, The 29th ACM International Conference on Multimedia (ACMMM2021), [code] Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori
Egocentric Biochemical Video-and-Language Dataset, The 4th Workshop on Closing the Loop Between Vision and Language in conjunction with ICCV2021 (CLVL2021), Taichi Nishimura, Kojiro Sakoda, Atsushi Hashimoto, Yoshitaka Ushiku, Natsuko Tanaka, Fumihito Ono, Hirotaka Kameko, and Shinsuke Mori
Visual Grounding Annotation of Recipe Flow Graph, The 12th International Conference on Language Resources and Evaluation (LREC2020), Taichi Nishimura, Suzushi Tomori, Hayato Hashimoto, Atsushi Hashimoto, Yoko Yamakata, Jun Harashima, Yoshitaka Ushiku and Shinsuke Mori
Procedural Text Generation from a Photo Sequence, The 12th International Conference on Natural Language Generation (INLG2019), [slide] Taichi Nishimura, Atsushi Hashimoto, and Shinsuke Mori
Frame Selection for Producing Recipe with Pictures from an Execution Video of a Recipe, The 11th Workshop on Multimedia for Cooking and Eating Activities in conjunction with ICMR2019 (CEA2019), [slide] Taichi Nishimura, Atsushi Hashimoto, Yoko Yamakata, and Shinsuke Mori (Best Paper Award)

Preprint

On the Audio Hallucinations in Large Audio-Video Language Models, arXiv:2401.09774, Taichi Nishimura, Shota Nakada, Masayoshi Kondo

Domestic Journal and Conference (Japanese)

Please click here

歴史資料を対象とした画像とテキストのクロスモーダル検索, 情報処理学会論文誌. 亀甲博貴, 朱,捷咏, 西村太一, 後藤真, 森信介
BioVL-QR: マイクロQRコードを用いた生化学分野の一人称視覚言語データセット,
第28回画像の認識・理解シンポジウム (MIRU2025). 西本智裕, 西村太一, 山本航輝, 白井圭佑, 亀甲博貴, 羽路悠斗, 吉田智哉, 梶村恵矢, 崔泰毓, 西脇千紘, 大黒恵理子, 奥田奈津子, 小野富三人, 森信介
ICASSP2025における音響-言語モデルの動向, 電気音響研究会 / 応用音響研究会. 宗像北斗, 西村太一, 仲田勝太, 小松達也
音響特徴量を活用した動画内区間検索及びハイライト検出,
第152回日本音響学会 (ASJ2024). 今村剛大, 西村太一, 小松達也, 戸田智基
自然言語による音響区間検索,
第152回日本音響学会 (ASJ2024). 宗像北斗, 西村太一, 仲田勝太, 小松達也
Lighthouse: 再現可能で使いやすい動画区間検索のライブラリ,
第27回画像の認識・理解シンポジウム (MIRU2024). 西村太一
音を発生させる物体を考慮した視聴覚表現学習,
第27回画像の認識・理解シンポジウム (MIRU2024). 仲田勝太, 西村太一, 宗像北斗, 小松達也, 近藤雅芳
動画生成における文字崩れの評価のためのデータセットと評価指標の提案,
第27回画像の認識・理解シンポジウム (MIRU2024). 青嶋雄大, 西村太一, 近藤雅芳
一人称視点に基づくテキスト駆動型アフォーダンス及び軌跡の学習, 言語処理学会第30回年次大会 (NLP2024). 吉田智哉, 栗田修平, 西村太一, 森信介
EgoOops!データセット: 手順書に従う作業の一人称映像への作業誤りアノテーション, 言語処理学会第30回年次大会 (NLP2024). 羽路悠斗, 西村太一, 山本航輝, 梶村恵矢, 崔泰毓, 亀甲博貴, 森信介
一人称視点動画を用いたマルチモーダル作業支援システム, 言語処理学会第30回年次大会 (NLP2024). 梶村恵矢, 西村太一, 羽路悠斗, 山本航輝, 崔泰毓, 亀甲博貴, 森信介
一人称視点動画を用いたマルチモーダル作業支援システムの提案, 第31回インタラクティブシステムとソフトウェアに関するワークショップ (WISS2023). 梶村恵矢, 西村太一, 羽路悠斗, 山本航輝, 崔泰毓, 亀甲博貴, 森信介
調理動作後の物体の視覚的状態予測を目指したVisual Recipe Flowデータセットの構築と評価, 自然言語処理 Vol 30 (3). 白井圭佑, 橋本敦史, 西村太一, 亀甲博貴, 栗田修平, 森信介
「BioVL2データセット: 生化学分野における一人称視点の実験映像への言語アノテーション」の研究経緯, 自然言語処理. 西村太一
大規模言語モデルからの知識抽出に基づく画像からのスクリプト予測の検討, 言語処理学会第29回年次大会 (NLP2023). 八木拓真, 西村太一, 清丸寛一, 唐井希
株式投資家の関心を考慮したニュース記事抽出によるストーリー生成, 言語処理学会第29回年次大会 (NLP2023). 木下聖, 西村太一, 亀甲博貴, 森信介
テキスト中の場所表現認識と係り受けに基づく緯度経度推定ツールの開発, 言語処理学会第29回年次大会 (NLP2023). 大野けやき, 西村太一, 亀甲博貴, 森信介
VideoCLIPを用いた実験動画からのプロトコル生成, 言語処理学会第29回年次大会 (NLP2023). 山本航輝, 西村太一, 亀甲博貴, 森信介
単語の階層関係に基づくデータ拡張を利用した画像キャプション生成の検討, 言語処理学会第29回年次大会 (NLP2023). 吉田智哉, 西村太一, 亀甲博貴, 森信介
テキストアナリティクスツールのログからの実験設定の説明文生成, 言語処理学会第29回年次大会 (NLP2023). 森田康介, 西村太一, 亀甲博貴, 森信介
BioVL2データセット: 生化学分野における一人称視点の実験映像への言語アノテーション, 自然言語処理 Vol 29 (4). [code] 西村太一, 迫田航次郎, 牛久敦, 橋本敦史, 奥田奈津子, 小野富三人, 亀甲博貴, 森信介 (論文賞)
ユーザ嗜好と栄養摂取基準に基づくレシピ推薦手法の開発, 第30回インタラクティブシステムとソフトウェアに関するワークショップ (WISS2022). 尾関沙羅, 小寺正明, 石黒勝彦, 西村太一, 樋口啓太
テキストマイニングツールのログからの実験設定の説明文生成, 第253回自然言語処理研究会 (NL253). 森田康介, 西村太一, 亀甲博貴, 森信介
映像からのストーリー生成: イベント選択器と文生成器の同時学習, 言語処理学会第28回年次大会 (NLP2022). 西村太一, 橋本敦史, 牛久祥孝, 森信介
生化学分野におけるVideo&Languageデータセットの構築, 言語処理学会第28回年次大会 (NLP2022). 迫田航次郎, 西村太一, 森信介, 小野富三人, 田中奈津子
市民科学でのアノテーション作業支援と作業者の能力向上支援, 言語処理学会第28回年次大会 (NLP2022). 星島洸明, 西村太一, 亀甲博貴, 森信介
画像描写問題における学習者作文の訂正文生成, 言語処理学会第28回年次大会 (NLP2022). 田中健斗, 西村太一, 南條浩輝, 白井圭佑, 亀甲博貴
Cross-modal Retrieval of Historical Materials, 言語処理学会第28回年次大会 (NLP2022). Jieyong Zhu, Taichi Nishimura, Makoto Goto, Shinsuke Mori
写真描画問題における自動採点手法の検討, 2021年度人工知能学会全国大会 (JSAI2021). 田中健斗, 西村太一, 白井圭佑, 亀甲博貴, 森信介
手順構造を考慮した作業映像からの手順書生成, 言語処理学会第27回年次大会 (NLP2021). 西村太一, 橋本敦史, 牛久祥孝, 森信介
手順構造を考慮した手順書からの作業画像検索, 言語処理学会第27回年次大会 (NLP2021). 迫田航次郎, 西村太一, 森信介
複数作業者を想定したアノテーションツールの作成と機能の検討, 言語処理学会第27回年次大会 (NLP2021). 星島洸明, 西村太一, 亀甲博貴, 森信介
手順構造を考慮した写真列からの手順書生成, 京都大学ICTイノベーション. 西村太一
写真列と構造要素からの手順構造と手順書の同時学習, 言語処理学会第26回年次大会 (NLP2020). 西村太一, 橋本敦史, 牛久祥孝, 森信介
レシピフローグラフへのVisual Groundingアノテーション, 言語処理学会第26回年次大会 (NLP2020). 西村太一, 友利涼, 橋本隼人, 橋本敦史, 山肩洋子, 原島純, 牛久祥孝, 森信介
重要語に着目した写真列からのレシピの自動生成, 自然言語処理 Vol. 27 (2). 西村太一, 橋本敦史, 森信介
作業写真列からの手順書の自動生成, ヒューマンコミュニケーション基礎研究会 (HCS). 西村太一, 橋本敦史, 森信介
Bounding Boxを付与したフローグラフコーパスの提案, 自然言語処理若手の会 (yans2019). 西村太一, 橋本敦史, 原島純, 山肩洋子, 森信介
写真付き手順書生成のための実施映像からのフレーム選択, 第11回データ工学と情報マネジメントに関するフォーラム (DEIM2019). 西村太一, 橋本敦史, 山肩洋子, 森信介
テキスタイルセンサを用いた腹巻型笑いログシステムによる笑い検出の検討, 第22回日本バーチャルリアリティ学会 (VRSJ2017). 島﨑郁花, 西村太一, 上岡玲子

Taichi Nishimura, Ph.D.

Education

Work Experience

Softwares

Publication

International Journal

International Conference

Preprint

Domestic Journal and Conference (Japanese)

News and Invited Talk

Academic Activities