2022. 9. 23. 11:40ㆍNEWS
* DALL-E를 만든 openAI가 다국어 음성 인식 시스템을 오픈소스로 공개했다
* Whisper는 ASR(automatic speech recognition)로써 웹에서 긁어 모은 다국적언어 680,000 시간 분의 데이터로 트레이닝 되었다 한다
* 소음, 억양, 전문용어에도 강하게 만들어짐
* 각 종 언어 ↔ 영어 간 번역을 지원
* 오디오와 텍스트가 쌍으로 맞춰져 있는 데이터셋으로 트레이닝 된 것이 아니라 다양한 데이터셋으로 트레이닝 되었기 때문에 표준(으로 얘기되는) 시험에서는 점수가 낮을 수 있지만 다양한 환경에서는 점수가 높을 수 있음
* 이 발표에서 또 흥미로운 점은 Non-English transcription의 예시로 한국어가 등장했다는 것
* AssemblyAI에서 Whisper를 이용하여 한국어를 듣고 영어로 번역하는 테스트를 해봤는데, 결과가 딱히 좋지는 않다 https://airtable.com/shrsWzrOGuzdC2nNQ/tblPXizjsu3FDkern/viwuBCbbQNl08T2bM?backgroundColor=blue
results.csv - Airtable
Explore the "results.csv" base on Airtable.
airtable.com
* Whisper를 소개하는 원문은 이 쪽
https://openai.com/blog/whisper/
Introducing Whisper
We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Read Paper View Code View Model Card Whisper examples: Reveal Transcript Whisper is an automatic speech rec
openai.com
* DALL-E 만큼이나, Whisper가 큰 반응을 불러 올 수 있을까? 오픈소스로 공개된 만큼, 국내외 많은 기업들과 개인 및 단체가 관심을 가질 것으로 보인다
'NEWS' 카테고리의 다른 글
전세계 5억명은 아직 밖에서 똥을 싼다 (0) | 2022.09.24 |
---|---|
세계 부자 지도 2022 (0) | 2022.09.24 |
일본, 오는 10월 11일부터 해외 관광객 무비자 및 자유여행 가능 (0) | 2022.09.23 |
애플, 한국 앱스토어에 '애플 페이' 연관 앱 추천시작 (0) | 2022.09.22 |
톰 하디, 주짓수 대회에서 우승 (0) | 2022.09.22 |