위스퍼 Whisper, openAI가 만든 다국어 음성 인식

2022. 9. 23. 11:40NEWS

반응형

* DALL-E를 만든 openAI가 다국어 음성 인식 시스템을 오픈소스로 공개했다

 

* Whisper는 ASR(automatic speech recognition)로써 웹에서 긁어 모은 다국적언어 680,000 시간 분의 데이터로 트레이닝 되었다 한다

 

* 소음, 억양, 전문용어에도 강하게 만들어짐

 

* 각 종 언어 ↔ 영어 간 번역을 지원

 

* 오디오와 텍스트가 쌍으로 맞춰져 있는 데이터셋으로 트레이닝 된 것이 아니라 다양한 데이터셋으로 트레이닝 되었기 때문에 표준(으로 얘기되는) 시험에서는 점수가 낮을 수 있지만 다양한 환경에서는 점수가 높을 수 있음

 

* 이 발표에서 또 흥미로운 점은 Non-English transcription의 예시로 한국어가 등장했다는 것

 

* AssemblyAI에서 Whisper를 이용하여 한국어를 듣고 영어로 번역하는 테스트를 해봤는데, 결과가 딱히 좋지는 않다  https://airtable.com/shrsWzrOGuzdC2nNQ/tblPXizjsu3FDkern/viwuBCbbQNl08T2bM?backgroundColor=blue 

 

results.csv - Airtable

Explore the "results.csv" base on Airtable.

airtable.com

 

* Whisper를 소개하는 원문은 이 쪽

https://openai.com/blog/whisper/

 

Introducing Whisper

We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Read Paper View Code View Model Card Whisper examples: Reveal Transcript Whisper is an automatic speech rec

openai.com

 

* DALL-E 만큼이나, Whisper가 큰 반응을 불러 올 수 있을까? 오픈소스로 공개된 만큼, 국내외 많은 기업들과 개인 및 단체가 관심을 가질 것으로 보인다

 

 

 

 

 

 

출처 : https://news.hada.io/topic?id=7458 

728x90