Արդեն հնարավոր է զրուցել Ֆեյսբուքի հետ․․․

Facebook– ը հրապարակել է Wav2Letter ծրագիրը, որը բացել է խոսքի ճանաչման հետ կապված այն զարգացումները, որոնք ստեղծվել են արհեստական ինտելեկտի՝ Facebook AI Research- ի լաբորատորիայում: Wav2Letter– ը իր մեջ ներառում է խոսքը տեքստի փոխակերպման պարզ ու բարձր որակի մեխանիզմ:

Կոդերը կազմված են այն մոդուլների տեսքով, որը Լուայի լեզվով է գրված և BSD- ի լիցենզիայի տակ տարածված է խորը մեքենաների ուսուցման ջահակի գրադարանին: Ձայնի վերամշակման համար օգտագործվում է Libsndfile գրադարանը իսկ թվային ազդանշանի մշակման համար օգտագործվում է ֆիքսված Fourier-FFTW վերափոխումը: Անգլերենի համար փորձված մոդելներ են օգտագործում:

Հրապարակված կոդը պարունակում է տրամաբանության ներդրում, որը հիմնված է ակուստիկ մոդելի և վերծանման գրաֆիկի վրա, որը ստեղծվել է համակարգչային օժանդակ ուսուցման համակարգով, հիմնվելով կոնվոլիտացիոն նեյրոնային ցանցի վրա: Համակարգը օգտագործում է բնութագրական սիմվոլային մեթոդ, որը չի պահանջում տարանջատում մեքենաների ուսուցման ընթացքում: Wav2Letter– ն օգտագործում է ավտոմատ սեգմենտացման տեխնիկան, որը թույլ է տալիս համակարգը մշակել ձայնագրման և տեքստային տառատեսակների հիման վրա `առանց լրացուցիչ նկարագրությունների:

Ապակոդավորող աշխատելու համար անհրաժեշտ է միայն բառերի ցանկ և լեզվական մոդել, տառերի քաշային հատկանիշները հատկացվում են ակուստիկ մոդելից, առանց որևէ հնչյունական բառապաշարների և բառարանների հետ կապի: Դասընթացը արագացնելու համար աջակցում է GPU NVIDIA- ի (CUDA) կամ կլաստերային համակարգերի (OpenMPI և TorchMPI) օգտագործումը:

LibriSpeech– ի փորձարկման ժամանակ համակարգը ցույց է տվել լավագույն արդյունքներից մեկը սխալների վերլուծության մակարդակի համար մաքուր (սխալի մակարդակը 4.8%) և շփոթեցնող (14.5% սխալ): Համեմատության համար, մարդկային ճանաչման սխալների մակարդակը գնահատվում է 5,83% -ով, իսկ Mozilla Voice- ի համար սխալը կազմում է 6,5%, Google Speech- ը 6,64%, wit.ai- ը 7,94%, Bing- ը 11,73%, Apple- ինը՝ 14,24%:

 

 

 

Մեկնաբանել