Tölgyes László

Tölgyes László
Forrás: ITB

Virtuális diktafon a kínpadon

Van egy olyan terület, ami kicsit mostohagyermekként volt eddig jelen az IT világ berkeiben, ez pedig a hangfelismerés és értelmezés, vagyis a szemantikai alapú alkalmazások. Az iPhone 4S-ben debütált SIRI ezt az űrt használta ki, igaz valójában egy mesterséges intelligenciának tekinthető, ha a gyakorlati felhasználását és eredményességét vesszük figyelembe.

Vannak viszont alternatív megoldások is, ilyen például a héten megjelent Nuance Communications által kifejlesztett iOS-es Dragon Dictation és a Dragon Search is. Az első program beszéli nyelvünket már szerencsére, gyakorlatilag a szavainkat képes átírni szöveges formátumba. Aki még emlékszik a Sikító Titkárnő nevű programra, az tudja, hogy ennek egy felturbósított változatáról van szó, igaz gépelni már sajnos nem kell tudnunk hozzá. Minden hasonló programmal szemben eddig gyanúperrel közeledett eme sorok írója, viszont kellemes csalódást okozott a Dragon Dictation. Kiváló diktafonként, igaz szokni kell az elején a kiejtésünket, vagy azt mennyire más beszélni, mint megértetni magunkat mégpedig ha az egy gép is. Ez különösen akkor feltűnő, ha gyerekekkel próbáljuk tesztelni, igaz ők annak örültek, hogy ha majd lesz iPhone-juk és ilyen szoftverük véget érnek az unalmas és fárasztó fogalmazás órák az iskolában. Valamiért a szoftver bizonyos hangmagasság felett roppant pontatlan lesz, ez főként női tesztalanyoknál fordul elő.

Mire is ez az egész akkor? Emailjeinket, twitter üzeneteinket tudjuk fárasztó gépelés nélkül megírni. Mivel a program meglepően precíz, egy felnőtt férfi esetében közel 98 százalékos a pontossága, nem kell javítanunk folyton folyvást a szövegeket. Sajnos viszont hosszabb esszéket, vagy ezt a cikket már nem lehet lediktálni számára. Tehát az Isaac Asimov Alapítványában szereplő automatikus digitális titkárnőtől még sajnos elég messze áll a gyakorlatban a Dictation. Folyamatosan javítanunk kell a szövegeket, de egy bizonyos gyakorlás után, és ha helyesen artikulálunk, akkor menni fog a dolog remélhetőleg. Igaz a gyerekteszt során direkte halandzsáztak a programnak, elég meglepő helyközzel értelmes posztmodern szövegek is keletkeztek néha.

Érdekes dolog az a kérdés, hogy miért is csak most jelent meg a piacon ez a beszédfelismerő, de a válasz roppant egyszerű rá, az Apple is a Nuance technológiáját alkalmazta a SIRI virtuális asszisztensénél, sajnos viszont érdekes módon viszont még ez nem beszél magyarul. Maga a program használat viszont mindenképpen netes kapcsolatot igényel, mivel egy központi szerver oldalon történik a rögzített beszédünk feldolgozása. Maga az API elérhető a fejlesztők számára, igaz elég érdekes fizetési csomagban gondolkoznak, de lehet, hogy a beszédfelismerésben ez az új üzleti modell válik majd be. A Dragon Search gyakorlatilag egy hang alapú kereső, sajnos elég szép angol akcentussal kell rendelkeznünk, ha ténylegesen is böngészni szeretnénk vele a neten. Ugyan ez még csak a kezdet, mivel mindkét alkalmazás ingyenes valószínűleg sokan rá fognak kattanni és a projekt rohamléptekkel fog fejlődni a jövőben.

Sejthető volt az is, hogy az Androidos szoftvergyártók is válaszolni fognak a SIRI nevű fenyegetésre. A Dexetra kifejlesztette az IRIS-t, ami az Intelligent Rival Imitator of Siri anagrammája gyakorlatilag, ha értjük a fejlesztők szarkazmusát. Elég érdekes, hogy a cég szerint az IRIS alig 8 órányi fejlesztés után látott napvilágot, mondjuk ez meg is látszik még rajta. A program angolul társalog velünk, felismeri a kérdéseinket, ha megfelelő és szép artikulációt alkalmazunk és nem valami skót tájszólással gyötörjük. A válaszok viszont már vagy a véletlentől, vagy a programozók kénye-kedvétől függenek. Igaz erre mentség lehet, hogy több adatbázisban is keres egyszerre az IRIS, tehát ezért tűnik lassúnak elsőre, néha viszont feladja a dodonai kérdéseinkre a válaszokat.

Mindenesetre rendkívül izgalmas terület jelent meg a hétköznapi emberek számára a beszédfelismerés már tényleg gyakorlatban is használható alkalmazásaival. Kérdés hova vezet minket ez a jövőben, a hordozható mesterséges intelligenciákhoz, vagy a robotok világához, vagy csupán az írógépünk és szövegszerkesztőnk digitalizált és trendi változatához. Az is megfontolandó, hogy ma, amikor Hofmann Rózsa korában gyakorlatilag a leendő jövő nemzedéke az analfabéták szintjén vegetál, mit fognak majd kezdeni egy IRIS vagy Dragon Dictation programmal. Írni és olvasni tudni azért remélhetőleg még a jövőben is kell!