자동화된 어시스턴트는 스마트 폰, 태블릿 컴퓨터, 웨어러블 디바이스, 자동차 시스템, 독립형 개인 어시스턴트 디바이스 등과 같은 다양한 클라이언트 디바이스를 통해 사용자와 상호 작용할 수 있다. 시스템은 주어진 음성을 청취하여 해당 음성이 기존에 등록된 사용자의 음성인지 확인하는 방식으로 화자를 인식한다. 기존의 텍스트 종속(text dependent, TD) 화자 인식 방식은 사용자의 화자 데이터는 “오케이 구글”, “하이 빅스비”, “하이 지니” 와 같은 특정 단어 또는 하나 이상의 구절을 포함하는 음성 발언에 기초하여 생성된다.

도 1 구글 인공지능 스마트 스피커 홈 미니
본 발명에서 구글에 의해 제시되는 텍스트 독립 화자 인식은 이러한 화자 인식에 사용되는 데이터를 특정 단어 및 구절로 제한시키지 않는다. 즉, 사실상 모든 음성 발언에 기초한 오디오 데이터는 TI 화자 인식 모델을 사용하여 처리되어 특정 사용자에 대한 TI 화자 임베딩과 효과적으로 비교될 수 있는 출력을 생성하여, 음성 발언이 특정 사용자한테서 오는 것인지 여부를 결정할 수 있다.
텍스트 독립 화자 인식이 이루어지는 어시스턴트 디바이스의 구성도는 도 2와 같다. 도 2은 다양한 구현들이 구현될 수 있는 예시적인 환경(100)을 도시한다. 스마트 어시스턴트에 해당하는 클라이언트 디바이스(102)는 저장된 각 사용자에 대해서 자동화 어시스턴트 클라이언트(104)의 인스턴스를 실행하여 화자 인식을 진행한다. 화자 인식은 기존에 저장된 화자 임베딩(108)에 기반하여 자동화된 클라이언트 디바이스(104)에서 화자 인식 모듈(107)을 통한 화자 인식 및 음성 캡처/텍스트-음성 변환(TTS)/음성-텍스트 변환(STT) 엔진(106)을 통해 사용자의 음성을 캡처하고 캡처된 오디오를 텍스트로 변환하고 명령 결과 텍스트를 음성으로 변환할 수 있다. 하지만 기존 텍스트 종속 방식에 비해 텍스트 독립 방식은 더 많은 화자 데이터에 기반하여 해당 화자 인식을 진행해야 하기 때문에 로컬 클라이언트 디바이스(102) 외에도 네트워크(112)로 연결된 클라우드 기반 자동화 어시스턴트 컴포넌트(114)의 도움을 받을 수 있다. 해당 컴포넌트는 자동화된 클라이언트 디바이스(104)처럼 텍스트-음성 변환(TTS)(116)/음성-텍스트 변환(STT) 엔진(118)을 포함하며 화자의 이전 발언들(126)과 화자 인식에 사용되는 여러 업데이트된 모델들(124)을 이용하여 높은 수준의 화자 인식 모듈(120)로 텍스트 독립 화자 인식을 수행한다. 그 후 음성-텍스트 변환(STT) 엔진(118)을 통해 입력된 화자의 자연어 입력에서 자연어 프로세서(122)는 다양한 유형의 문법 정보를 식별하고 대명사가 가르키는 명사에 대한 정보 등의 주석을 달아 보다 명확한 명령 수행을 가능케 한다.

도 2 텍스트 독립 화자 인식 블록도
도 3은 TI 화자 인식 모델의 업데이트된 버전을 사용하여 업데이트된 화자 임베딩을 생성하는 프로세스(200)를 나타내는 흐름도이다. 블록(202)에서, 시스템은 TI 화자 임베딩을 캡처하면서 클라이언트 디바이스로부터 자동화 어시스턴트 요청을 수신한다. 블록(204)에서, 시스템은 TI 화자 인식 모델의 구 버전이 자동화 어시스턴트 요청의 일부로서 수신된 TI 화자 임베딩을 생성했는지 여부를 결정한다. 만약 그렇다면, 시스템은 블록(206)으로 진행하여 출력을 생성하기 위해 구 버전의 TI 화자 인식 모델을 사용하여 오디오 데이터를 처리한다. 만약 TI 화자 인식 모델의 현재 버전이 화자 임베딩을 생성했다고 시스템이 결정하면, 프로세스는 TI 화자 인식 모델의 현재 버전을 사용하여 특정 화자가 발언을 말한 것을 검증할 수 있으며 프로세스는 종료될 수 있다. 블록(208)에서, 시스템은 특정 사용자가 음성 발언을 말했는지 TI 화자 인식 모델을 통해 생성된 출력과 사용자의 화자 임베딩을 비교하여 사용자 여부를 결정한다. 그런 경우, 시스템은 블록(210)으로 진행하여 오디오 데이터에 기초하여 특정 사용자에 대해 맞춤화된 응답형 컨텐츠를 생성한다. 블록(212)에서, 시스템은 TI 화자 인식 모델의 업데이트된 버전을 사용하여 특정 사용자의 이전 음성 입력을 캡처하는 이전 오디오 데이터를 처리함으로써 업데이트된 화자 임베딩을 생성후 클라이언트 디바이스로 전송한다(214).

도 3 텍스트 독립 화자 인식 흐름도
도 4는 해당 기술을 수행하기 위한 클라이언트 디바이스(510)의 예시적인 블록도이다. 디바이스는 버스 서브 시스템(512)를 통해 여러 주변 시스템과 프로세서(514)를 연결한다. 사용자 인터페이스 입력 디바이스(522)는 키보드, 마우스 등을 통해 디바이스(510)에 데이터 입력을 수행하며 사용자 인터페이스 출력 디바이스(520)는 디스플레이를 통해 데이터를 화면에 출력한다. 저장 서브 시스템(524)은 해당 시스템을 운영하는테 필요한 프로그램 및 데이터를 저장하며 프로그램 실행 동안 명령 및 데이터를 저장하기 위한 주 랜덤 액세스 메모리("RAM")(530) 및 고정 명령이 저장된 판독 전용 메모리("ROM")(532)로 구성된 메모리(525)와 하드 디스크 등의 영구 파일 저장 시스템(526)으로 구성된다. 네트워크 인터페이스 서브 시스템(516)은 외부 네트워크에 대한 인터페이스를 제공하고 다른 컴퓨팅 디바이스의 대응하는 인터페이스 디바이스에 결합된다.

도 4 클라이언트 디바이스의 예시 아키텍처
구글의 해당 발명에 따른 텍스트 독립 화자 인식 성능은 결국 텍스트를 받아들여 인식하는 인공지능 모델의 수준에 따라 결정된다. 최근 연구되고 있는 구글의 최신 음성 임베딩 모델인 프릴(FRILL)은 사용자의 음성을 더 빠르고 정확하게 구분할 수 있도록 음성 데이터를 처리하는 방식을 선보인다. 해당 기술 개발 및 발명에 따라 근시일 내에는 더 이상 스마트 스피커에 “오케이 구글”, “하이 빅스비”, “하이 지니”와 같은 화자 인식 구절의 필요가 없어질 수도 있을 것이다.
특허법인ECM
변리사 김시우
swkim@ecmpatent.com
02-568-2670
자동화된 어시스턴트는 스마트 폰, 태블릿 컴퓨터, 웨어러블 디바이스, 자동차 시스템, 독립형 개인 어시스턴트 디바이스 등과 같은 다양한 클라이언트 디바이스를 통해 사용자와 상호 작용할 수 있다. 시스템은 주어진 음성을 청취하여 해당 음성이 기존에 등록된 사용자의 음성인지 확인하는 방식으로 화자를 인식한다. 기존의 텍스트 종속(text dependent, TD) 화자 인식 방식은 사용자의 화자 데이터는 “오케이 구글”, “하이 빅스비”, “하이 지니” 와 같은 특정 단어 또는 하나 이상의 구절을 포함하는 음성 발언에 기초하여 생성된다.
도 1 구글 인공지능 스마트 스피커 홈 미니
본 발명에서 구글에 의해 제시되는 텍스트 독립 화자 인식은 이러한 화자 인식에 사용되는 데이터를 특정 단어 및 구절로 제한시키지 않는다. 즉, 사실상 모든 음성 발언에 기초한 오디오 데이터는 TI 화자 인식 모델을 사용하여 처리되어 특정 사용자에 대한 TI 화자 임베딩과 효과적으로 비교될 수 있는 출력을 생성하여, 음성 발언이 특정 사용자한테서 오는 것인지 여부를 결정할 수 있다.
텍스트 독립 화자 인식이 이루어지는 어시스턴트 디바이스의 구성도는 도 2와 같다. 도 2은 다양한 구현들이 구현될 수 있는 예시적인 환경(100)을 도시한다. 스마트 어시스턴트에 해당하는 클라이언트 디바이스(102)는 저장된 각 사용자에 대해서 자동화 어시스턴트 클라이언트(104)의 인스턴스를 실행하여 화자 인식을 진행한다. 화자 인식은 기존에 저장된 화자 임베딩(108)에 기반하여 자동화된 클라이언트 디바이스(104)에서 화자 인식 모듈(107)을 통한 화자 인식 및 음성 캡처/텍스트-음성 변환(TTS)/음성-텍스트 변환(STT) 엔진(106)을 통해 사용자의 음성을 캡처하고 캡처된 오디오를 텍스트로 변환하고 명령 결과 텍스트를 음성으로 변환할 수 있다. 하지만 기존 텍스트 종속 방식에 비해 텍스트 독립 방식은 더 많은 화자 데이터에 기반하여 해당 화자 인식을 진행해야 하기 때문에 로컬 클라이언트 디바이스(102) 외에도 네트워크(112)로 연결된 클라우드 기반 자동화 어시스턴트 컴포넌트(114)의 도움을 받을 수 있다. 해당 컴포넌트는 자동화된 클라이언트 디바이스(104)처럼 텍스트-음성 변환(TTS)(116)/음성-텍스트 변환(STT) 엔진(118)을 포함하며 화자의 이전 발언들(126)과 화자 인식에 사용되는 여러 업데이트된 모델들(124)을 이용하여 높은 수준의 화자 인식 모듈(120)로 텍스트 독립 화자 인식을 수행한다. 그 후 음성-텍스트 변환(STT) 엔진(118)을 통해 입력된 화자의 자연어 입력에서 자연어 프로세서(122)는 다양한 유형의 문법 정보를 식별하고 대명사가 가르키는 명사에 대한 정보 등의 주석을 달아 보다 명확한 명령 수행을 가능케 한다.
도 2 텍스트 독립 화자 인식 블록도
도 3은 TI 화자 인식 모델의 업데이트된 버전을 사용하여 업데이트된 화자 임베딩을 생성하는 프로세스(200)를 나타내는 흐름도이다. 블록(202)에서, 시스템은 TI 화자 임베딩을 캡처하면서 클라이언트 디바이스로부터 자동화 어시스턴트 요청을 수신한다. 블록(204)에서, 시스템은 TI 화자 인식 모델의 구 버전이 자동화 어시스턴트 요청의 일부로서 수신된 TI 화자 임베딩을 생성했는지 여부를 결정한다. 만약 그렇다면, 시스템은 블록(206)으로 진행하여 출력을 생성하기 위해 구 버전의 TI 화자 인식 모델을 사용하여 오디오 데이터를 처리한다. 만약 TI 화자 인식 모델의 현재 버전이 화자 임베딩을 생성했다고 시스템이 결정하면, 프로세스는 TI 화자 인식 모델의 현재 버전을 사용하여 특정 화자가 발언을 말한 것을 검증할 수 있으며 프로세스는 종료될 수 있다. 블록(208)에서, 시스템은 특정 사용자가 음성 발언을 말했는지 TI 화자 인식 모델을 통해 생성된 출력과 사용자의 화자 임베딩을 비교하여 사용자 여부를 결정한다. 그런 경우, 시스템은 블록(210)으로 진행하여 오디오 데이터에 기초하여 특정 사용자에 대해 맞춤화된 응답형 컨텐츠를 생성한다. 블록(212)에서, 시스템은 TI 화자 인식 모델의 업데이트된 버전을 사용하여 특정 사용자의 이전 음성 입력을 캡처하는 이전 오디오 데이터를 처리함으로써 업데이트된 화자 임베딩을 생성후 클라이언트 디바이스로 전송한다(214).
도 3 텍스트 독립 화자 인식 흐름도
도 4는 해당 기술을 수행하기 위한 클라이언트 디바이스(510)의 예시적인 블록도이다. 디바이스는 버스 서브 시스템(512)를 통해 여러 주변 시스템과 프로세서(514)를 연결한다. 사용자 인터페이스 입력 디바이스(522)는 키보드, 마우스 등을 통해 디바이스(510)에 데이터 입력을 수행하며 사용자 인터페이스 출력 디바이스(520)는 디스플레이를 통해 데이터를 화면에 출력한다. 저장 서브 시스템(524)은 해당 시스템을 운영하는테 필요한 프로그램 및 데이터를 저장하며 프로그램 실행 동안 명령 및 데이터를 저장하기 위한 주 랜덤 액세스 메모리("RAM")(530) 및 고정 명령이 저장된 판독 전용 메모리("ROM")(532)로 구성된 메모리(525)와 하드 디스크 등의 영구 파일 저장 시스템(526)으로 구성된다. 네트워크 인터페이스 서브 시스템(516)은 외부 네트워크에 대한 인터페이스를 제공하고 다른 컴퓨팅 디바이스의 대응하는 인터페이스 디바이스에 결합된다.
도 4 클라이언트 디바이스의 예시 아키텍처
구글의 해당 발명에 따른 텍스트 독립 화자 인식 성능은 결국 텍스트를 받아들여 인식하는 인공지능 모델의 수준에 따라 결정된다. 최근 연구되고 있는 구글의 최신 음성 임베딩 모델인 프릴(FRILL)은 사용자의 음성을 더 빠르고 정확하게 구분할 수 있도록 음성 데이터를 처리하는 방식을 선보인다. 해당 기술 개발 및 발명에 따라 근시일 내에는 더 이상 스마트 스피커에 “오케이 구글”, “하이 빅스비”, “하이 지니”와 같은 화자 인식 구절의 필요가 없어질 수도 있을 것이다.
특허법인ECM
변리사 김시우
swkim@ecmpatent.com
02-568-2670