Лингвистика пробој најављује машинско превођење за хиљаде ретких језика

Најбоља претпоставка је да људи тренутно говоре око 6.900 различитих језика. Више од половине глобалне популације комуницира користећи само неколико њих — кинески, енглески, хинди, шпански и руски. Заиста, 95 одсто људи комуницира користећи само 100 језика.



Остали арготи су много ређи. Заиста, лингвисти процењују да око трећину светских језика говори мање од 1.000 људи и да су у опасности да изумру у наредних 100 година. Са њима ће ићи и јединствено културно наслеђе које оличавају — приче, фразе, шале, биљни лекови, па чак и јединствене емоције.

Лако је мислити да машинско учење може помоћи. Проблем је у томе што се машинско превођење ослања на огромне скупове података са коментарима за обављање посла. Ови скупови података се састоје од огромних корпуса књига, чланака и веб локација које су ручно преведене на друге језике. Ово делује као Росетта Стоне за алгоритме за машинско учење, а што је већи скуп података, то боље уче.





Мапа која показује како се групишу индикатори прошлог времена за 100 истражених језика.

корисници проширене стварности су уроњени у виртуелни свет док су у интеракцији са објектима.

Али ови огромни скупови података једноставно не постоје за већину језика. Зато машинско превођење функционише само за мали део најчешћих језичких језика. Гугл преводилац, на пример, говори само око 90 језика.

Дакле, важан изазов за лингвисте је да пронађу начин да аутоматски анализирају мање уобичајене језике како би их боље разумели.



Данас, Ехсанеддин Асгари и Хинрицх Сцхутзе са Универзитета Лудвиг-Макимилиан у Минхену у Немачкој кажу да су управо то урадили. Њихов нови приступ открива важне елементе готово сваког језика који се онда могу користити као одскочна даска за машинско превођење.

Нова техника се заснива на једном тексту који је преведен на најмање 2.000 различитих језика. Ово је Библија и лингвисти су одавно препознали њен значај у својој дисциплини.

Сходно томе, направили су базу података под називом Паралелни библијски корпус, која се састоји од превода Новог завета на 1.169 језика. Овај скуп података није довољно велик за врсту индустријског машинског учења које Гоогле и други обављају. Тако су Асгари и Шуце дошли до другог приступа заснованог на начину на који се времена појављују у различитим језицима.

Већина језика користи одређене речи или комбинације слова за означавање времена. Дакле, нови трик је да се ови сигнали ручно идентификују на неколико језика, а затим да се користе технике рударења података за тражење других превода тражећи речи или низове слова који играју исту улогу.



На пример, у енглеском се садашње време означава речју ис, будуће време речју вилл, а прошло време речју вас. Наравно, постоје и други означитељи.

Асгаријева и Шуцеова идеја је да пронађу све ове речи у енглеском преводу Библије заједно са другим примерима из неколико превода на друге језике. Затим потражите низове речи или слова који играју исту улогу у другим језицима. На пример, низ слова -ед такође означава прошло време на енглеском.

Али постоји преокрет. Асгари и Сцхутзе не почињу са енглеским јер је то релативно стар језик са многим изузецима од правила, што отежава учење.

Уместо тога, они почињу са скупом креолских језика који су се развили из мешавине других језика. Пошто су млађи, креолски језици су имали мање времена да развију ове језичке идиосинкразије. А то значи да генерално садрже боље маркере језичких карактеристика као што је време. Наше образложење је да су креолски језици редовнији од других језика јер су млади и нису акумулирали „историјски пртљаг“ који би могао отежати анализу рачунања, кажу они.

Један од ових језика је сејшелски креолски, који користи реч ти да означи прошло време. На пример, мон траваи значи да радим на овом језику, док мон ти траваи значи да сам радио, а мон ти пе траваи значи да сам радио. Дакле, ти је добар означитељ прошлог времена.

Асгари и Шуце састављају листу означитеља прошлог времена на 10 других језика, а затим копају паралелни библијски корпус за друге речи и низове слова који обављају исту функцију. Понављају ово за садашње и будуће време.

Резултати чине занимљиво читање. Техника открива лингвистичке конструкције везане за време у уобичајеним језицима као што су -ед на енглеском и -те на немачком, као и речи и фразе које обављају исте функције у много ређим језицима као што је означитељ прошлог времена ден у Гоурманцхема језик из Буркино Фасо, и ии у Иалунка, који се говори у Малију, итд.

Овај рад омогућава истраживачима да креирају мапе које показују како су језици који користе сличне конструкције времена повезани (погледајте дијаграм).

блокира овај сеф

То је занимљив посао. Асгари и Шуце су развили рачунарски метод за анализу начина на који људи користе прошло, садашње и будуће време на преко 1.000 језика. Ово је највећа рачунарска студија на више језика икада спроведена. Заиста, број укључених језика је за ред величине већи него у другим студијама.

Дело има значајну примену. Мапе језичког времена омогућавају истраживачима да брзо разраде односе између језика и како су они повезани. То би се могло искористити за боље разумевање еволуције језика.

Исти приступ би се могао користити и за друге језичке карактеристике. Ми само захтевамо да језичка карактеристика буде отворено означена на неколико хиљада језика, за разлику од захтева да буде означена на свим језицима који се истражују, кажу Асгари и Сцхутзе.

Импликације иду даље. Рачунарска лингвистика је имала дубок утицај на наше разумевање језика, начина на који он варира широм света и како га машине могу разумети. Ова нова дисциплина је омогућила аутоматско превођење многих језика директно на друге у писаном и говорном облику. Заиста, обећање је да ће тренутно машинско превођење ускоро одговарати и онда надмашити способност људских тумача.

Али корисност машинског превођења за одређене језике чини их популарнијим на рачун језика за које се не брине. Зато би машинско превођење могло убрзати нестанак угрожених језика.

Заиста, лингвисти су видели сличан феномен са другим облицима масовне комуникације, као што су услуге сателитске телевизије. Они се углавном емитују на једном језику, који онда постаје пожељнији и популарнији од језика који се не емитују.

Асгаријев и Шуцеов рад могао би да помогне да се овај образац опадања преокрене. Наравно, то је велики корак од овог посла до тачног машинског превођења, али је то корак у правом смеру.

Реф: аркив.орг/абс/1704.08914 : Прошлост, садашњост, будућност: рачунарско истраживање типологије времена на 1.000 језика

сакрити

Стварне Технологије

Категорија

Унцатегоризед

Технологија

Биотехнологија

Технолошка Политика

Климатске Промене

Људи И Технологија

Силиконска Долина

Рад На Рачунару

Мит Невс Магазин

Вештачка Интелигенција

Спаце

Паметни Градови

Блоцкцхаин

Репортажа

Алумни Профил

Алумни Веза

Функција Мит Невс

1865. Године

Мој Поглед

77 Масс Аве

Упознајте Аутора

Профили У Великодушности

Виђено У Кампусу

Алумни Леттерс

Вести

Избори 2020

Витх Индек

Под Куполом

Ватрогасно Црево

Бесконачне Приче

Пандемиц Тецхнологи Пројецт

Од Председника

Насловна Прича

Фото Галерија

Рецоммендед