Return to search

調理操作に起因する画像特徴変化のモデルを用いた食材領域の追跡 / Food Tracking under Image Feature Transition Caused by Cooking Process

調理の様子を観測した映像アーカイブの各シーンに対し,そのシーンで使用されている食材名を注釈として付与するためには,調理者が扱っている食材を常時特定している必要がある.調理中の食材は,切断・混合・加熱などの操作によって外見が変化するので,食材を継続的に追跡することによって個体を特定するアプローチをとる.操作時に容器を用いる混合・加熱の操作では,容器に取り付けたセンサなどを用いて食材を追跡することが可能である.一方,手で直接行う操作である切断では,センサ情報による追跡が不可能である.そのため本研究では切断などの直接手で操作を施している最中の食材を追跡することを目的とする.食材は切断されると,多数の断片になったりひとまとめにされたりするため,映像中での食材領域は,多数の分裂と統合を繰り返す.追跡を実現するためには,各フレームで分裂・統合した領域をフレーム間で対応付ける必要がある.しかし,分裂・統合した領域を対応付けるとき,その候補は膨大になりうるし,各領域の画像特徴は切断とともに大きく変化しうる.そのため,考えうるすべての候補から画像特徴のみを用いて正しい対応付けを求めるのは困難である.従来手法では,各時刻で分裂・統合しうる食材領域が1種類のみであるという制約のもと,追跡を実現していた.対応付け候補が多数あっても,画像特徴が変化する食材領域が1種類であることがわかっていれば,対応付けは容易である.しかしながら,この制約は,実際の調理では実現性が低い.本研究では実際の調理での有効性を考慮して上述の制約を緩和し,同色の食材については分裂・統合しうる食材は1種類である,という制約のもと,追跡を行う手法を提案する.制約の緩和により,複数種類の食材についての対応付けが一意に定まらなくなる.そこで,食材領域の画像特徴変化モデルを導入することで,食材領域の対応付け候補について尤度を求め,尤度が高い候補を採用することで,対応付けを定める.以上で述べた手法の有効性の確認のため,画像特徴変化モデルの妥当性を評価する実験を行った.実際の調理を観測した映像から,食材領域の画像特徴変化モデルにより,異色の食材からなる領域間の対応付け候補を棄却できることを示した.また,提案制約が実際の調理でどの程度満たされるかについて,調査を行った.多数のレシピをもとに,従来手法と提案手法が導入している制約が成立する割合を検証し,実際の調理における有効性が向上することを確認した. / Annotation of food stuff to a cooking video is convenient for searching scenes in which the food stuff is used. In order to annotate food stuff in the video, identification of the food stuff is required in the whole video. Food stuff undergoes various changes through cooking processes: cut, mix, boil, etc. Since it is difficult to recognize food stuff in a single captured image, we track the food stuff from the beginning of the cooking. In a scene of mixing or boiling food stuff, the cook puts the food stuff in some container: bowl, pan, etc. We can track easily the food stuff by a sensor attached to the container. In a scene of cutting food stuff, the cook manipulates the food stuff directly by the hands. We can not attach sensors directly to the food stuff. Thus we aim to track food stuff handled directly by cook’s hands in a video. The cooking processes mentioned above will split the food stuff into pieces, or gather up pieces of food stuff. This is observed in the video as split and merge of regions of the food stuff. Tracking the food stuff in the video requires finding correspondence of split and merge of regions between frames. The number of candidates of the correspondence in the whole video can be vast and the appearance of the regions of each correspondence can be different between beginning and end. Therefore, it is difficult to determine the correct correspondences from all the candidates by their appearance between beginning and end. Previous work introduces the constraint that the cook processes only one kind of food stuff. Under the constraint, the number of species of food stuff is one that causes split and merge of the regions simultaneously between frames. Since, under the constraint, a number of candidates in a frame originate from only one species of food stuff, finding correspondence is easily obtained. However, the constraint is often unsatisfied. In this work, we relax the constraint to one that is easily satisfied. We introduce the constraint that the cook processes separately the food stuff that has different appearance. For reducing ambiguity in finding correspondences caused by the relaxation, we introduce an appearance transition model of food stuff. We adopt the candidate with the highest likelihood among the candidates, and thus tracking food stuff is obtained. We implemented the method mentioned above, and evaluated the capability of calculating the likelihood and determining the correct correspondence. In addition, we assessed the possibility of the proposed constraint satisfied. The results showed that the method can increase the feasibility in real activities. / Kyoto University (京都大学) / 0048 / 修士 / 修士(情報学)

Identiferoai:union.ndltd.org:kyoto-u.ac.jp/oai:repository.kulib.kyoto-u.ac.jp:2433/71896
Date23 March 2009
Creators森, 直幸
Contributors美濃, 導彦, Mori, Naoyuki, モリ, ナオユキ
Publisher京都大学, Kyoto University
Source SetsKyoto University
LanguageJapanese
Detected LanguageEnglish
TypeTFtmp, Thesis or Dissertation
Formatapplication/pdf

Page generated in 0.0025 seconds