탐색 쿼리는 사용자가 검색 엔진에 검색의 실행을 요청할 때, 검색 엔진에 제출하는 하나 이상의 데이터를 뜻한다. 보통의 경우에는 키보드 상에서 타이핑된 텍스트나 음성 인식 기술로 처리되는 음성 쿼리가 해당된다. 특히 음성 쿼리에서 주변 환경음은 해당 쿼리를 답변하는데 이용될 수 있다. 예를 들어, 사용자는 자신이 보고 있는 텔레비전 프로그램에 관한 질문(에컨대, "이 영화에 나오는 주인공은 누구인가요?")을 할 경우, 해당 프로그램 사운드를 인식하여 어떤 프로그램인지 확인하고 쿼리에 대한 답변에 사용할 수 있다. 즉, 해당 예에서 어떤 영화인지 분석하고 영화에 나오는 주인공을 검색하여 답변할 수 있다.

도 1 구글 음성 검색
구글은 본 발명을 통해 음성 쿼리에서 입력된 파형에서 음성 데이터와 환경 데이터를 분리한 다음, 환경 데이터를 이용하여 쿼리 답변을 더 높은 수준으로 수행한다. 해당 방법은 발화 및 환경 데이터를 인코딩하는 오디오 데이터를 수신하는 동작, 상기 발화의 전사를 획득하는 동작, 상기 환경 데이터를 이용하여 엔티티를 식별하는 동작, 상기 전사의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작, 및 상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작으로 구성된다.
도 2는 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 시스템(100)을 나타낸다. 해당 예에서 사용자(112)는 TV 프로그램을 시청하며 해당 프로그램의 감독을 알기 위해 "누가 이 쇼를 감독했나요?"라는 질문을 모바일 컴퓨팅 디바이스(102)에 전달한다. 모바일 컴퓨팅 디바이스(102)는 검출된 발화 및 환경 오디오 데이터를 처리하여 검출된 발화 및 환경 오디오 데이터를 나타내는 파형 데이터(114)를 생성하고, 네트워크를 통하여 명확화 엔진(104)으로 전송한다(A). 명확화 엔진(104)은 파형 데이터(114)를 분리하여 음성 발화를 음성 인식 엔진(106)으로 전송한다(B). 음성 인식 엔진(106)은 명확화 엔진(104)으로부터 발화에 대응하는 파형 데이터(114)의 일부를 수신하여 텍스트 데이터로 전사한 뒤 키워드 맵핑 엔진(108)으로 전달한다(C). 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 전사 내의 하나 또는 그 이상의 키워드들을 식별하고, 상기 특정 콘텐츠 유형을 명확화 엔진(104)에 제공한다. 해당 예에서는 키워드 “감독했나”로부터 ‘TV 쇼’ 및 ‘영화’ 콘텐츠 유형에 연관되어 해당 콘텐츠 유형을 전달한다(D). 명확화 엔진(104)은 전달받은 콘텐츠 유형과 분리한 환경 오디오 데이터를 콘텐츠 인식 엔진(110)으로 제공한다(E). 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터에 기초하며 특정 콘텐츠 유형을 매칭하는, 콘텐츠 아이템 데이터를 식별하고, TV 쇼의 이름, 감독의 이름 등의 콘텐츠 아이템 데이터를 명확화 엔진(104)으로 제공한다(F). 이후 명확화 엔진(104)은 콘텐츠 아이템 데이터 중 쿼리에 해당하는 감독의 이름 데이터를 모바일 컴퓨팅 디바이스(102)로 전송한다(G).

도 2 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 시스템
도 3은 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스(200)의 흐름도를 나타낸다. 먼저 발화된 자연 언어 쿼리를 부호화하는 오디오 데이터 및 환경 오디오 데이터가 수신된다(202). 이는 도 2의 수신된 파형 데이터(114)의 형태로 수신된다. 이후, 자연 언어 쿼리의 전사가 획득된다(204). 예를 들어, 음성 인식 시스템(106)이 자연 언어 쿼리를 전사하여 자연 언어 쿼리의 전사(예를 들어, "누가 이 쇼를 감독했나요?")를 생성한다. 그리고 전사 내의 하나 또는 그 이상의 키워드들에 연관된 특정 콘텐츠 유형이 판단된다(206). 해당 예에서는 TV 쇼에 대한 유형으로 결정된다. 분리된 환경 오디오 데이터의 적어도 일부는 콘텐츠 인식 엔진(208)에 제공되어 특정 콘텐츠 유형과 매칭되는 콘텐츠 아이템이 식별된다(210).

도 3 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스
도 4a 및 도 4b는 콘텐츠 아이템 데이터를 식별하기 위한 시스템 일부들(300a, 300b)을 각각 도시한 것이다. 도 4a는 콘텐츠 인식 엔진(310a)을 포함하는 일부(300a)를 도시한다. 콘텐츠 인식 엔진(310a)은 콘텐츠 아이템을 식별하기 위하여 환경 데이터에 기초하여 환경 데이터를 적절히 처리하고, 나아가 선택된 콘텐츠 아이템 데이터가 특정한 콘텐츠 유형과 일치하도록 하나 이상의 식별된 콘텐츠 아이템 데이터를 선택한다. 이를 위해 명확화 엔진(304a)은 환경 데이터 및 특정한 콘텐츠 유형을 콘텐츠 인식 엔진 (310a)에 제공한다(A). 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304a)에 제공한다(B). 수신한 콘텐츠 아이템 데이터를 기반으로 명확화 엔진(304a)은 제삼자에게 필요한 데이터를 제공한다(C).
도 4b는 콘텐츠 인식 엔진(310b)을 포함하는 일부(300b)를 도시한 도면이다. 이 경우, 명확화 엔진(304b)은 환경 데이터만을 콘텐츠 인식 엔진(310b)에 제공한다(A). 콘텐츠 인식 엔진(310b)은 수신한 환경 오디오 데이터를 통해 바로 연관된 콘텐츠를 식별하고 관련 데이터를 전송한다(B). 이때, 콘텐츠 인식 엔진(310b)은 해당 콘텐츠가 TV 쇼인지, 테마 송인지 모르므로 두 컨텐츠의 이름을 명확화 엔진(304b)로 전송한다. 명확화 엔진(304b)은 콘텐츠 인식 엔진(310b)으로부터 둘 이상의 후보들을 수신한다. 이후 키워드 맵핑 엔진으로부터 얻은 콘텐츠 유형과 일치하는 데이터가 ‘TV 쇼 이름’ 데이터임을 랭킹 스코어를 매겨 결정하고 해당 데이터를 제공한다(C).

도 4a,b 콘텐츠 아이템을 식별하는 예시적 시스템의 부분
구글은 2016년 인공지능 비서 구글 어시스턴트를 처음 공개한 이후 계속해서 인공지능의 개발에 엄청난 발전을 보이고 있다. 특히 해당 발명과 관련된 새로운 인공지능 검색엔진 알고리즘인 멈(multimodal model, MUM)은 이미지, 텍스트, 음성, 영상 등을 복합적으로 입력받아 검색하는 차세대 검색 엔진으로 사용될 것으로 기대된다.
특허법인ECM
변리사 김시우
swkim@ecmpatent.com
02-568-2670
탐색 쿼리는 사용자가 검색 엔진에 검색의 실행을 요청할 때, 검색 엔진에 제출하는 하나 이상의 데이터를 뜻한다. 보통의 경우에는 키보드 상에서 타이핑된 텍스트나 음성 인식 기술로 처리되는 음성 쿼리가 해당된다. 특히 음성 쿼리에서 주변 환경음은 해당 쿼리를 답변하는데 이용될 수 있다. 예를 들어, 사용자는 자신이 보고 있는 텔레비전 프로그램에 관한 질문(에컨대, "이 영화에 나오는 주인공은 누구인가요?")을 할 경우, 해당 프로그램 사운드를 인식하여 어떤 프로그램인지 확인하고 쿼리에 대한 답변에 사용할 수 있다. 즉, 해당 예에서 어떤 영화인지 분석하고 영화에 나오는 주인공을 검색하여 답변할 수 있다.
도 1 구글 음성 검색
구글은 본 발명을 통해 음성 쿼리에서 입력된 파형에서 음성 데이터와 환경 데이터를 분리한 다음, 환경 데이터를 이용하여 쿼리 답변을 더 높은 수준으로 수행한다. 해당 방법은 발화 및 환경 데이터를 인코딩하는 오디오 데이터를 수신하는 동작, 상기 발화의 전사를 획득하는 동작, 상기 환경 데이터를 이용하여 엔티티를 식별하는 동작, 상기 전사의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작, 및 상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작으로 구성된다.
도 2는 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 시스템(100)을 나타낸다. 해당 예에서 사용자(112)는 TV 프로그램을 시청하며 해당 프로그램의 감독을 알기 위해 "누가 이 쇼를 감독했나요?"라는 질문을 모바일 컴퓨팅 디바이스(102)에 전달한다. 모바일 컴퓨팅 디바이스(102)는 검출된 발화 및 환경 오디오 데이터를 처리하여 검출된 발화 및 환경 오디오 데이터를 나타내는 파형 데이터(114)를 생성하고, 네트워크를 통하여 명확화 엔진(104)으로 전송한다(A). 명확화 엔진(104)은 파형 데이터(114)를 분리하여 음성 발화를 음성 인식 엔진(106)으로 전송한다(B). 음성 인식 엔진(106)은 명확화 엔진(104)으로부터 발화에 대응하는 파형 데이터(114)의 일부를 수신하여 텍스트 데이터로 전사한 뒤 키워드 맵핑 엔진(108)으로 전달한다(C). 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 전사 내의 하나 또는 그 이상의 키워드들을 식별하고, 상기 특정 콘텐츠 유형을 명확화 엔진(104)에 제공한다. 해당 예에서는 키워드 “감독했나”로부터 ‘TV 쇼’ 및 ‘영화’ 콘텐츠 유형에 연관되어 해당 콘텐츠 유형을 전달한다(D). 명확화 엔진(104)은 전달받은 콘텐츠 유형과 분리한 환경 오디오 데이터를 콘텐츠 인식 엔진(110)으로 제공한다(E). 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터에 기초하며 특정 콘텐츠 유형을 매칭하는, 콘텐츠 아이템 데이터를 식별하고, TV 쇼의 이름, 감독의 이름 등의 콘텐츠 아이템 데이터를 명확화 엔진(104)으로 제공한다(F). 이후 명확화 엔진(104)은 콘텐츠 아이템 데이터 중 쿼리에 해당하는 감독의 이름 데이터를 모바일 컴퓨팅 디바이스(102)로 전송한다(G).
도 2 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 시스템
도 3은 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스(200)의 흐름도를 나타낸다. 먼저 발화된 자연 언어 쿼리를 부호화하는 오디오 데이터 및 환경 오디오 데이터가 수신된다(202). 이는 도 2의 수신된 파형 데이터(114)의 형태로 수신된다. 이후, 자연 언어 쿼리의 전사가 획득된다(204). 예를 들어, 음성 인식 시스템(106)이 자연 언어 쿼리를 전사하여 자연 언어 쿼리의 전사(예를 들어, "누가 이 쇼를 감독했나요?")를 생성한다. 그리고 전사 내의 하나 또는 그 이상의 키워드들에 연관된 특정 콘텐츠 유형이 판단된다(206). 해당 예에서는 TV 쇼에 대한 유형으로 결정된다. 분리된 환경 오디오 데이터의 적어도 일부는 콘텐츠 인식 엔진(208)에 제공되어 특정 콘텐츠 유형과 매칭되는 콘텐츠 아이템이 식별된다(210).
도 3 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스
도 4a 및 도 4b는 콘텐츠 아이템 데이터를 식별하기 위한 시스템 일부들(300a, 300b)을 각각 도시한 것이다. 도 4a는 콘텐츠 인식 엔진(310a)을 포함하는 일부(300a)를 도시한다. 콘텐츠 인식 엔진(310a)은 콘텐츠 아이템을 식별하기 위하여 환경 데이터에 기초하여 환경 데이터를 적절히 처리하고, 나아가 선택된 콘텐츠 아이템 데이터가 특정한 콘텐츠 유형과 일치하도록 하나 이상의 식별된 콘텐츠 아이템 데이터를 선택한다. 이를 위해 명확화 엔진(304a)은 환경 데이터 및 특정한 콘텐츠 유형을 콘텐츠 인식 엔진 (310a)에 제공한다(A). 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304a)에 제공한다(B). 수신한 콘텐츠 아이템 데이터를 기반으로 명확화 엔진(304a)은 제삼자에게 필요한 데이터를 제공한다(C).
도 4b는 콘텐츠 인식 엔진(310b)을 포함하는 일부(300b)를 도시한 도면이다. 이 경우, 명확화 엔진(304b)은 환경 데이터만을 콘텐츠 인식 엔진(310b)에 제공한다(A). 콘텐츠 인식 엔진(310b)은 수신한 환경 오디오 데이터를 통해 바로 연관된 콘텐츠를 식별하고 관련 데이터를 전송한다(B). 이때, 콘텐츠 인식 엔진(310b)은 해당 콘텐츠가 TV 쇼인지, 테마 송인지 모르므로 두 컨텐츠의 이름을 명확화 엔진(304b)로 전송한다. 명확화 엔진(304b)은 콘텐츠 인식 엔진(310b)으로부터 둘 이상의 후보들을 수신한다. 이후 키워드 맵핑 엔진으로부터 얻은 콘텐츠 유형과 일치하는 데이터가 ‘TV 쇼 이름’ 데이터임을 랭킹 스코어를 매겨 결정하고 해당 데이터를 제공한다(C).
도 4a,b 콘텐츠 아이템을 식별하는 예시적 시스템의 부분
구글은 2016년 인공지능 비서 구글 어시스턴트를 처음 공개한 이후 계속해서 인공지능의 개발에 엄청난 발전을 보이고 있다. 특히 해당 발명과 관련된 새로운 인공지능 검색엔진 알고리즘인 멈(multimodal model, MUM)은 이미지, 텍스트, 음성, 영상 등을 복합적으로 입력받아 검색하는 차세대 검색 엔진으로 사용될 것으로 기대된다.
특허법인ECM
변리사 김시우
swkim@ecmpatent.com
02-568-2670