東京大学 大学院情報理工学系研究科 修士2年 石川妹尾研究室所属の 三河祐梨 です.
私は拡張現実(Augmented Reality; AR)ディスプレイの研究に従事しており,中でも動く対象に追従し投影する「ダイナミックプロジェクションマッピング」の研究を行っています.
近年,プロジェクションマッピングは東京駅等の屋外建造物や遊園地,博物館,レストランなど,さまざまな場所で利用される身近な技術となっています.
ARによる不思議な体験は,複数人でああこう言いながら気軽にできると楽しいものです.プロジェクションマッピングは,ARグラスや空中像と比較すると広視野角で多人数で共有できる画期的な技術であり,そして発展先の幅広さも相まって,研究が活発な分野となっています.
目次
AR研究の動機
私がARの研究がしたいと思った動機は,ARで広がるディスプレイ(提示)の体験の奥深さに惹かれ,そこに紐づくさまざまな工学的技術の発掘が面白いと思ったからです.
物理や数学の技術の集結で面白い視覚体験が生み出せることも魅力の一つです.
さらに,ARなどのディスプレイ(提示)の研究は,新しいディスプレイを発明するという意味で, 工学の分野における「価値の創造」に寄与します.
現在我々は ,液晶画面など,ディスプレイを身近なところで目にします.しかし,今あるディスプレイの形は本当に人間にとって情報を享受しやすい形なのでしょうか.あるいは,良い発信源であるのでしょうか.
情報社会の発展に伴って,人間とコンピュータの間はより密に連携する必要があります. ARの提示技術の研究は,ディスプレイ(提示)のより良いデザインを発掘することと繋がり,今まで見えてこなかった価値を創る生業となり得ます.そこも面白く,探求し甲斐のある点です.
本稿を読むにあたって
ただ,自分でARを作るなんて難しそう,機材などにたくさんのお金がかかってハードル高そう,と感じる人もいるでしょう.
しかし,ARの体験自体は,皆さんの手元にもあるスマートフォンでのARアプリで可能です.私もそこが入口でした.
次に,ARデバイス(スマートフォンやHoloLens)の開発,すなわち「自分で作ってみる」経験を通してARの世界に浸るようになりました.
中高生の皆さんでも,手持ちのスマートフォンとパソコンを用意して,Unity等のツールを使えばAR開発は可能です.またプログラミング自体にハードルを感じていても,大学生主催のイベント等で中高生にも学ぶ機会があります.
またギラギラ夏祭りやIVRC,VR系のスタートアップでのインターン等,今や中高校生にも活躍の場の門戸が開けています.
※リンクは2019年に既に開催されたものです.
少しでも面白そうと思ったら,躊躇せず,是非チャレンジしてみて欲しいです.
しかし,研究となると,少なくとも大学/大学院に入学しなければできないですし,プロジェクタ等の各種光学系はお金がかかるので,莫大な研究資金をかけてできる幅広さが異なります.
本稿は研究だからこそできるARの最新の技術を,プロジェクションマッピングを中心にお伝えできたらと思います.皆さんがARないしそれを支える技術開発に携わりたいと思うきっかけになれば幸いです.
拡張現実感(Augmented Reality; AR)の基本
VRとARの違い
VR(バーチャルリアリティ)とAR(拡張現実)は名前が似ており,またデバイスもゴーグル/グラス型やスマートフォンを利用したものなどを中心に似ているため,一緒くたに語られることが多いですが,研究分野としては異なる説明がつきます.
VR(バーチャルリアリティ)は,人の五感(視覚,聴覚,触覚,味覚,嗅覚)という人への入力(インプット)を変化させることで,人への新たな体験を催すものです.
AR(拡張現実感)は,視覚や聴覚を中心とした五感に対し、現実世界にすでに在るものとディジタル情報が調和した提示による新たな体験を指します.
ARも,視覚や聴覚(Spatial Sound等)の入力で人に新たな体験を生み出す,という意味ではVRになると言えます.
2つを集合で表すならば,両者は交わるものであり,VRとARは不可分な領域と言えます.
ARの三大整合性
AR(拡張現実感)という情報と現実の視覚融和的な体験の究極を突き詰めるにあたって,重要な指標に「ARの三大整合性」というものがあります.
幾何学的整合性・時間的整合性・光学的整合性 の3つがあります.
① 幾何学的整合性
コンピュータが生成した視覚情報(結像や投影絵)が,現実空間の物体や環境の凹凸や遮蔽に対応して整合性が取れているかを示す指標を,幾何学的整合性と呼びます.
スマートフォンのARで,提示した絵が背景にめり込む・大きさが合わない 等の場面に遭遇した経験のある人も多いと思います.
そういったときに,ユーザーは提示情報に不信感を覚え,体験への没入感が得られなくなります.
更に広げると,多人数間で正確に情報が提示・共有できているか否かも,幾何学的整合性に含まれると言えます。
たとえば,Aさんからは机の上にディジタル情報があるように見え、Bさんからは隣の椅子の上にあるように見えると言った場合,そこの差異からARの体験は損なわれているといえます.
テレビなど環境に備え付けた液晶画面やプロジェクションマッピングは,提示するだけでまず多人数共有が可能です.
次に,遮蔽に関しては光学的にセンシング可能で,またプロジェクションマッピングは対象面にそのまま提示するため凹凸へのめり込みがありません.
② 光学的整合性
視覚提示が外界の光源を反映した様である,すなわち物体が環境光を受けて反射する,遮蔽による陰影を反映するといった特徴がみられると,人は提示情報により実在感を感じやすくなります.
逆に,ユーザーによる遮蔽で陰影が反映されてなかったりすると,実在感を損なうともいえます.
この光源に対応した提示情報の再現度の指標を光学的整合性と呼びます.
環境光の反射については,対象の質感,すなわちツヤ感(鏡面反射成分)やざらざら感(拡散反射成分)に応じて反射の様子が変わってきます.これらを満たすことで,実在感を示し,提示対象の実物を正確に伝える役割を果たします.
脱線しますが,プロジェクションマッピングは主に暗室で使われるため,光源を仮定した提示や,提示面の質感(ツヤ感やざらざら感)を変化させて提示する手法も提案されています [1].
③ 時間的整合性
環境や対象物の運動や形状が時間に応じ変化する中でもズレなく提示できるかの指標を時間的整合性と言います.
計算機やデバイスは処理に時間がかかるため,指令してからいくらかの遅延が発生します.遅延により提示が遅れると,人はずれを知覚し,体験を不自然に感じます(遅延時間の許容可能は,先行研究により6.04 [ms]と言われています [2]).
特に指でディスプレイをなぞる・紙がうねるように変形する・ボールが移動する等,提示面が運動する場合に,不自然さは顕著になります.
液晶は提示に時間がかかるため,運動や変形に対する時間遅延の問題が避けられません.
プロジェクタも,汎用の製品では100 [ms]以上の遅延を要しますが,近年の研究発展により,最小遅延 3 [ms]の高速低遅延プロジェクタが開発されています [3].
ARを実現するシステムとその課題
スマートフォンやビデオシースルー型HMD(Head Mounted Display)によるAR体験は液晶を利用していますが,前述のとおり時間遅延が問題となります.多人数共有も時間や幾何学的にずれが生じやすい問題があります.
ARグラスは空中結像の仕組みを利用しています.透けて見えるため,仮想空間のようなカッコよさがありますが,裏を返せば実在感を欠いてしまいます.提示映像が現実物体へのめり込む・視野角が狭い等の問題もあります.
ARグラスは同様に多人数で共有する場合に課題が多いため,一人で利用するARに留まるとされています.透ける性質から現実世界の視界を遮らず,よって最も日常的な利用が想定される技術です.
本稿で取り上げているプロジェクションマッピング,すなわち投影式のARの一番の利点は多人数で同時に鑑賞できることです.難点は,暗室が前提であること,機材が大きいため個人での運用は難しいこと,空中像の提示は不可能であることです.
しかし,機材が重厚な分,性能が高いため,センシングや提示に工夫を凝らした研究が発展してきています.
ダイナミックプロジェクションマッピングとは?
私は“ダイナミックプロジェクションマッピング”と呼ばれる研究分野に従事しています.”ダイナミック”な状況に対応する,すなわち運動や変形に追従して投影を行うものです.
ユーザーが把持する対象のランダムな運動変形に貼りつくようについてくることから,画期的なAR体験をもたらす技術として注目されています.
私は,その中でも,広域に運動する対象へのプロジェクションマッピングの研究を行っています.
教室のプロジェクタを思い浮かべればわかるように,プロジェクタの提示領域は狭い範囲に留まり,動く物体への投影といっても,ステージパフォーマンスやスポーツに容易に適用できるものではありません.
しかし,近年の研究により,その問題を解決することができました.どのようにして広範囲への対応を行ったのでしょうか.
同軸制御光学系による投影の広域化
本節では追従式広域投影を行うための同軸制御光学系を紹介します.
まず,対象の動きをセンシングするためのカメラを用意します.さらに,当然ながら投影を行うプロジェクタを用意します.
通常,カメラとプロジェクタは固定,あるいは雲台に載せて回転並進させることを考えます.しかしその機構では,卓球のボール等,高速な動きへの追従は難しくなります.
ここで,プロジェクタとカメラ(図のProjector, High-speed camera)を両光軸が垂直に交わるように配置し,光軸の交点にビームスプリッタを設置することで,2つの光軸を同軸化することを提案します.これにより,制御軸は1軸のみで簡素になります.
ただ,プロジェクタやカメラはそのまま置くと,光路が拡大した状態となり,ビームスプリッタは全ての光路を受けることができません.ここで,瞳転送系と呼ばれる複数レンズ群を用いて焦点位置を仮想的に手前に移動させます.
次に,同軸化された光軸に対し,Galvanometer mirrorsと呼ばれる小型軽量ミラーの2枚を,各々をパン(Y軸周りの回転)・チルト(X軸周りの回転)軸として制御することで,光軸方向を自在に素早く移動させます.これを視線制御と呼びます.
ミラー制御を用いることにより,遠方であるほど移動範囲が広がります.ガルバノミラーの走査角を±30度とすると,単純計算で,10 m離れた対象は左右方向に約11.5 mの移動範囲があると言えます.これにより,スポーツやステージパフォーマンス等への応用が容易となります.
さらに,カメラの視線方向を常に対象に向くように制御できることにより,対象が画角めいっぱいに映った状態を維持でき,高解像度の画像により高精度な対象の認識が可能となります.
またさらに,カメラは1,000 [fps]という高速なものを利用します.
このとき,対象が激しい運動をしていても,たった1 [ms]の差では動きは微小であり,フレームの更新後も常にすぐ近くに対象がいると仮定できるため,すぐ近くの画素に限定して画像処理を行うことで,ランダムな運動に対しても追従するように検出を継続できます.
また,カメラは高速であるほど感光時間が短く,各フレームは暗く撮影されてしまいます.そのためプロジェクタで対象に向けて照明を焚いた状態でトラッキングします.しかし,それでも対象と背景の差異が分かりづらい問題があります.
そこで背景に再帰性反射材と呼ばれる,入射光の方向に反射光を送る特殊な素材(自転車のリフレクターと同じ素材)を貼ることで,陰影部分を対象領域と認識し,それへのトラッキングを継続的に行います.
これにより,背景との差分が明瞭であるため,高い検出精度が維持できるようになります.
以上の機構により,広域に運動する対象への高速トラッキングが実現されます.球体のような回転対称体を仮定すると,視線方向を常に球体中心に向けた状態で,同じ円を投影していくだけで,貼りつくような投影が可能となります [4].
平面対象への拡張
次に,対象を球体ではなく平面に拡張することを考えます.このとき,回転対称体の球体とは異なり,カメラから見て平面の見え方は姿勢に応じて変化します.したがって,対象平面の姿勢変化に対応する必要があります.
ここで,平面の四隅に再帰性反射材マーカーを貼り,それらをカメラで検出します(先述と同様にマーカー箇所は明瞭で,高い検出精度を示します).
そして,4個のマーカーに関する既知のマップと画像上の検出点の対応からホモグラフィ行列(平面を別の平面に射影する行列)を求めることで,平面対象の姿勢を推定します.
そして,先述の光学系で高速低遅延プロジェクタ [3]を利用し,姿勢変化に応じて変形させた絵を即座に投影することで,人間の目には平面にぴたりと貼りついたように見えます.
球体だけでなく平面対象にも拡張したことで,パフォーマンスの表現の幅が広がります.
最後に
本稿でお見せしたプロジェクションマッピングは研究分野ではごく一部のもので,他にも面白い研究があります.
私が所属する石川妹尾研究室では多数のプロジェクションマッピングの研究があります.興味を持たれた方は,ぜひホームページをご覧になってください.