위스퍼 Whisper, openAI가 만든 다국어 음성 인식

위스퍼 Whisper, openAI가 만든 다국어 음성 인식

2022. 9. 23. 11:40ㆍNEWS

* DALL-E를 만든 openAI가 다국어 음성 인식 시스템을 오픈소스로 공개했다

* Whisper는 ASR(automatic speech recognition)로써 웹에서 긁어 모은 다국적언어 680,000 시간 분의 데이터로 트레이닝 되었다 한다

* 소음, 억양, 전문용어에도 강하게 만들어짐

* 각 종 언어 ↔ 영어 간 번역을 지원

* 오디오와 텍스트가 쌍으로 맞춰져 있는 데이터셋으로 트레이닝 된 것이 아니라 다양한 데이터셋으로 트레이닝 되었기 때문에 표준(으로 얘기되는) 시험에서는 점수가 낮을 수 있지만 다양한 환경에서는 점수가 높을 수 있음

* 이 발표에서 또 흥미로운 점은 Non-English transcription의 예시로 한국어가 등장했다는 것

* AssemblyAI에서 Whisper를 이용하여 한국어를 듣고 영어로 번역하는 테스트를 해봤는데, 결과가 딱히 좋지는 않다 https://airtable.com/shrsWzrOGuzdC2nNQ/tblPXizjsu3FDkern/viwuBCbbQNl08T2bM?backgroundColor=blue

results.csv - Airtable

Explore the "results.csv" base on Airtable.

airtable.com

* Whisper를 소개하는 원문은 이 쪽

https://openai.com/blog/whisper/

Introducing Whisper

We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Read Paper View Code View Model Card Whisper examples: Reveal Transcript Whisper is an automatic speech rec

openai.com

* DALL-E 만큼이나, Whisper가 큰 반응을 불러 올 수 있을까? 오픈소스로 공개된 만큼, 국내외 많은 기업들과 개인 및 단체가 관심을 가질 것으로 보인다

출처 : https://news.hada.io/topic?id=7458

728x90

'NEWS' 카테고리의 다른 글

전세계 5억명은 아직 밖에서 똥을 싼다 (0)	2022.09.24
세계 부자 지도 2022 (0)	2022.09.24
일본, 오는 10월 11일부터 해외 관광객 무비자 및 자유여행 가능 (0)	2022.09.23
애플, 한국 앱스토어에 '애플 페이' 연관 앱 추천시작 (0)	2022.09.22
톰 하디, 주짓수 대회에서 우승 (0)	2022.09.22

TEN SCRAP

TEN SCRAP

태그

최근글

댓글

공지사항

아카이브

'NEWS' 카테고리의 다른 글

관련글

티스토리툴바