[구글]VR 기기에서 사용자의 관점 예측을 통한 매끄러운 컨텐츠 재생 방식 

출원번호10-2020-0102496
출원일자2020년08월14일
출원인구글 엘엘씨
공개번호(일자)10-2021-0022498 (2021년03월03일)
발명의 명칭반복 신경망들을 통한 포즈 예측


가상 현실(VR) 시스템, 증강 현실(AR) 시스템, 및 혼합 현실(MR) 시스템에 의해 생성된 경험과 같은 몰입형 경험에서, 컨텐츠의 매끄러운 진행 방식이 몰입도를 높이는데 중요하다. 특히, VR/AR 콘텐츠가 동일한 위치에 있는 기지국에서와 같이 원격으로 추적 및 렌더링되는 경우, 디바이스에서 렌더링 서버로 그리고 다시 디바이스로 돌아오는 왕복 과정에 의해 대기시간이 발생하여 사용자의 몰입을 해칠 수 있다. 


도 1 가상 현실(VR) 시스템을 통한 컨텐츠 재생


구글에서는 본 발명을 통하여 사용자의 포즈를 추적하고, 이의 미래 움직임을 예측하여 미리 예측된 관점에서의 컨텐츠 영상을 저장해 매끄럽고 몰입도 높은 영상을 제공할 수 있게 한다. 해당 방식은 증강 현실 경험을 위한 머리 포즈 예측에 대한 요청을 수신하는 단계, 상기 증강 현실 경험과 관련된 적어도 하나의 위치 지시자 및 적어도 하나의 회전 지시자를 식별하는 단계, 복수의 셀들을 포함하는 RNN(Recurrent Neural Network)에 적어도 하나의 위치 지시자 및 적어도 하나의 회전 지시자를 제공하여 예측된 위치 지시자를 출력하는 단계로 구성된다.

도 2는 예시적인 머리 포즈 예측 시스템(200)의 블록도이다. 시스템(200)은 VR 디바이스(202)에 액세스하는 사용자의 머리 위치, 방향을 포함한 포즈를 예측할 수 있다. 해당 디바이스는 네트워크(205)를 통해 컴퓨팅 디바이스(204)에 액세스하는 사용자에게 컨텐츠를 제공한다. 또한, 출력 디바이스(208) 및 입력 디바이스(210)를 포함한 사용자 인터페이스 시스템 (206)을 구성하여 데이터를 송, 수신한다. 광 센서들, IMU(inertial measurement unit, 각속도, 선형 가속도 검출 유닛) 센서들(214), 오디오 센서들(216), 이미지 센서들(218), 머리 포즈 검출기들(220), 노멀라이저들(221), 카메라들(222)로 구성된 추적 시스템(212)는 인코더/디코더 모델 (230), 상태 전파 모델(232), LSTM(장단기 기억) 아키텍처(234) 또는 GRU 아키텍처(236)의 다양한 기계학습 모델을 포함한 사용자의 머리 포즈 예측 시스템(224)에 활용된다.

 

도 2 AR/VR/MR 경험을 제공하기 위한 머리 포즈 예측 시스템 블록도


도 3은 머리 포즈 예측 시스템에 대한 예시적인 인코더/디코더 모델 아키텍처(230)이다. 인코더 디코더 모델은 시간에 따른 포즈 데이터를 압축시키는 인코더 부분(402)과 압축되어 핵심만 남은 데이터로 미래의 포즈를 예측하여 원래의 데이터 형태로 되돌리는 디코더 부분(404)으로 구성된다. 인코더 부분(402)은 RNN의 일종인 LSTM 층(406) 및 완전 연결 층(408)으로 구성되며, LSTM 층(406)은 완전 연결 층(408)에 연결된다. 시간에 따른 머리 포즈는 3차원상 위치를 나타내는 위치벡터와 3차원상 머리 방향을 나타내는 쿼터니언 벡터를 합한 7차원의 벡터로 연속되거나 랜덤한 시간에서 H개 만큼 추출되어 인코더에 입력된다(X1(412)~XH(416)). 입력된 포즈 데이터는 LSTM 셀 및 완전 연결 층(408)에서 압축되고 예측되어 제1 예측 샘플(존재하지 않는 이미지입니다.)을 만들며 디코더 부분(404)로 전달되어 예측된 포즈(430)로 출력된다. 


도 3 머리 포즈 예측 시스템에 대한 예시적인 모델 아키텍처


도 4는 여기에 서술된 구현들에 따른 예측된 머리 포즈들에 기초하여 AR 또는 VR 또는 MR 경험으로 콘텐츠를 제공하는 프로세스(1000)의 구현을 다이어그램으로 나타낸 흐름도이다. 블록 1002에서, 프로세스(1000)는 증강 또는 가상 현실 경험에 대한 머리 포즈 예측에 대한 요청을 수신한다. 이후 블록 1004에서, 프로세스(1000)는 AR/VR 경험과 연관된 3차원 위치 벡터로 표현된 위치 지시자 및 쿼터니언 벡터로 표현된 회전 지시자를 식별하고, 예측을 위해 RNN에 제공한다(1006). 제공된 입력은 RNN에서 출력되어 예측된 포즈를 생성하며(1008), 프로세스(1000)는 요청에 응답하여 예측에 기초하여 증강 또는 가상 현실 경험에서 증강 또는 가상 현실 콘텐츠의 디스플레이를 촉발한다(1010). 


도 4 예측된 머리 포즈에 기초한 컨텐츠 제공 흐름도


본 발명과 같은 사용자의 경험을 기반한 예측 및 활용은 아직 데이터 수집에 있어 개인정보 보호에 문제가 있어 기술이 활용되기 위해 사회적 합의가 동반되어야 할 것으로 생각된다. 하지만 더 질 높은 VR 사용자 경험을 위한 기술과 그에 따른 변화는 소비자들의 수요를 점차 높여갈 수 있을 것이라 예상된다.





특허법인ECM

변리사 김시우

swkim@ecmpatent.com

02-568-2670

 

0

ECM IP&LAW FIRM

3F, 13, Teheran-ro 70-gil, Gangnam-gu, Seoul, Republic of Korea