A World Wide Web Consortium közzétette az SSML 1.0 W3C-ajánlását
Jó minőségű szintetizált beszéd teszi erősebbé a Beszédillesztési Keretrendszert
Dícséretek (angol nyelven) szintén olvashatók.
http://www.w3.org/ -- 2004. szeptember 8. -- A World Wide Web Consortium (W3C) kibocsátotta a Beszédszintézis-jelölőnyelv (Speech Synthesis Markup Language; SSML) 1.0 W3C-ajánlását. Az SSML 1.0, amely egy meghatározó specifikáció a W3C Beszédillesztési Keretrendszerében (W3C Speech Interface Framework), nagy hangsúlyt fektet a jó minőségű szintetizált beszédre a Webes interakciókban. A mobiltelefonokra, PDA-kra és több, kialakulófélben lévő technológiai platformra fejlesztő alkalmazástervezők az SSML 1.0-át használják a generált beszéd fontos jellemzőinek -- kiejtés, hangerő, hangmagasság -- nagyléptékű vagy aprólékos vezérlésére. A kapcsolódó W3C-ajánlásokhoz hasonlóan -- mint a VoiceXML 2.0 és a Nyelvtani Specifikáció a Beszédfelismeréshez (Speech Recognition Grammar Specification; SRGS), melyeket szintén a W3C Hangos Böngésző Munkacsoport adott ki -- az SSML 1.0-t a más webes technológiákkal való összekapcsolhatóságot, a többi, szintézisalapú platformmal való együttműködőképességet szem előtt tartva tervezték meg.
"Örülök annak a fejlődésnek, amely a W3C Hangböngésző Munkacsoportjának köszönhetően -- webes technológiákra építve -- a szolgáltatásokhoz való telefonos hozzáférés terén végbement," mondta a W3C vezetője, Tim Berners-Lee, aki a jövő héten vitaindító előadást tart a SpeechTEK konferencián. Hozzátette: a cégek most már telefonon keresztül is biztosíthatják ügyfeleik számára a hozzáférést a weben megszokott automatizált, interaktív szolgáltatásaikhoz, melyek eddig csak személyi számítógép segítségével voltak használhatók.
A W3C Beszédillesztési Keretrendszere -- a világ körülbelül kétmilliárd vezetékes és mobiltelefon-készülékét célozva meg -- a beszédhang-alapú webes alkalmazások készítésére szolgáló specifikációk gyűjteménye. E keretrendszer révén példátlanul sok ember vehet majd igénybe -- bármilyen telefonkészülék segítségével -- megfelelően elkészített webes szolgáltatásokat, olyan eszközök felhasználásával, mint a számbillentyűk, szóbeli utasítások, előre felvett beszéd visszajátszása, szintetizált beszéd és zene.
A World Wide Web Consortium (W3C) ajánlásait a piac és a webes közösség gyakorlatilag webes szabványokként fogadja el. Minden ajánlás egy-egy jól megalapozott specifikáció, melyet valamelyik W3C munkacsoport készít, és a W3C tagsági köre véleményez. Az ajánlások előreviszik a webes technológiák közötti együttműködőképesség ügyét, hiszen a munkacsoportot alkotó piaci szereplők egyetértése, egyeztetési munkája alapján jönnek létre.
Gazdag szókészlet a jó minőségű beszédért
Az egyik elsődleges probléma, mellyel az SSML a webes beszédgenerálás terén foglalkozik, a kiejtés. Hogyan mondjuk ki például azt, hogy "1/2"? Az SSML 1.0 specifikációja ezen az egyszerű példán mutatja be azokat az akadályokat, amelyek az átalános szövegolvasást elválasztják az értelmes szintetikus beszédtől. A szövegkörnyezet ismerete nélkül nem tudhatjuk, melyik a helyes kiejtés: "fél", "egyketted", "január másodika", "február elseje" vagy "egy osztva kettővel". Az SSML 1.0 nyelvi konstrukciói segítenek kiküszöbölni ezt a fajta kétértelműséget. Az SSML szókészlete lehetővé teszi a hangkimenet szó-, fonéma-, és hullámforma-szintű vezérlését, az alkalmazási területek igényeinek és a tervezői követelményeknek széles skáláját elégítve ki.
"Az SSML -- a terület úttörőinek munkájára építve -- egy erős és rugalmas módot kínál az alkalmazásfejlesztőknek a szintetikus és előre felvett beszéd jó minőségű ötvözésére az interaktív beszéd-alapú szolgáltatásokban" -- mondta Dave Raggett, a W3C Hangböngésző Fejlesztési Területének vezetője, aki egyben a Canon képviselője a W3C-nél. Hozzátette: "Az SSML a VoiceXML-alapú szolgáltásokat -- szöveg-alapú telefonkészülékek használata révén --a beszéd vagy a hallás terén fogyatékos emberek számára is hozzáférhetővé teszi. Az SSML-nek ráadásul igéretes jövője van a VoiceXML-alapú felhasználáson túl is, ahogyan az a most kifejlődőben lévő, többmódú interakciós szabványokon lemérhető."
Az SSML -- az XHTML-hez hasonlóan -- egy jelölőnyelv, amely a széles körben használt XML szabványon alapul. SSML nyelvű tartalom létezhet önállóan vagy más, XML nyelvű dokumentum részeként. Az SSML természetszerűleg különösképpen alkalmas arra, hogy a VoiceXML keretén belül használják egy interaktív beszéd-alapú alkalmazás létrehozásakor.
Az SSML 1.0 más téren is a jó integrálhatóság jegyében született. A Hangböngésző Munkacsoport szoros együttműködést folytatott más W3C-csoportokkal, biztosítva, hogy a nyelv felépítése összhangban legyen a korlátozott adottságú Web-hozzáférés ill. a nemzetköziesítés alapelveivel és a Web általános architetkúrájával. A hallássérültek számára hasznos, szöveges telefonos alkalmazás fontos felhasználása az SSML-nek. Ugyanaz a tartalom "kiküldhető" a szöveges telefononra is, mint ami beszédhang formájában egy közönséges telefonra. Az SSML 1.0 összhangban van a W3C korábbi, a kiejtés stíluslapokban (CSS) való leírásával kapcsolatos munkájával is. A W3C CSS Munkacsoportja egy beszédmodul kifejlesztésén dolgozik, amely alkalmas lesz az XML dokumentumok SSML-alapú beszédgenerátorokon történő "megjelenítésére".
Sikeres ipari bevezetés
A W3C Hangböngésző Munkacsoportja különösen sikeres azon a téren, hogy specifikációt elfogadtassa, még mielőtt azok ajánlássá válnának. Egy -- a 2004. júliusi SSML-implementációs beszámolóban tárgyalt -- tesztkörnyezet segíti az SSML 1.0 eddig elkészült számos megvalósítását a konzisztens működés elérésében. Mostanáig többek között a következő cégek implementálták az SSML 1.0-t (akik egyben résztvevői is a Munkacsoportnak): Aspect Communications, France Telecom, Hewlett-Packard, IBM, Loquendo, Microsoft, MITRE, Nuance Communications, SAP, ScanSoft, Sun Microsystems, VoiceGenie Technologies, Voxeo és Voxpilot.
A Munkacsoport most majd a Beszédillesztési Keretrendszer hátralévő feladataira koncentrálja erőit. "A VoiceXML 2.0 és a Nyelvtani Specifikáció a Beszédfelismeréshez (SRGS) után az SSML immár a harmadik nyelv a W3C Beszédillesztési Keretrendszerében, amely teljesértékű W3C-ajánlássá vált" -- monta Jim Larson, az Intel fejlett ember-gép kommunikációs (advanced human input-output) részlegének vezetője és a W3C Hangböngésző Munkacsoportjának társelnöke. -- "Dolgozunk más, a W3C Beszédillesztési Keretrendszerébe tartozó nyelvek befejezésén is, többek között a VoiceXML 2.1-en, a Jelentésértelmezésen (Semantic Interpretation) és az XML Hívásvezérlésen (Call Control eXtensible Markup Language; CCXML).
Ez a Munkacsoport egyike a legnagyobbaknak és a legaktívabbak a W3C-nél. Résztvevői többek között a következők: Aspect Communications, BeVocal, Brooktrout Technology, Canon, Comverse Technology, Convedia, Electronic Data Systems, France Telecom, Genesys Telecommunications Laboratories, HeyAnita, Hitachi, Hewlett-Packard, IBM, Intel, IWA-HWG, Korea Association of Information and Telecommunication, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nokia, Nuance Communications, Openstream, SAP, ScanSoft, Siemens, Sun Microsystems, Syntellect, Tellme Networks, Verascape, Vocalocity, VoiceGenie Technologies, Voxeo, and Voxpilot.
A World Wide Web Consortium-ról (W3C)
A W3C-t azzal a céllal hozták létre, hogy elősegítse a Webben rejlő lehetőségek minél teljesebb kihasználását olyan közös számítógépes protokollok kidolgozásával, amelyek előremozdítják a Web fejlődését, és biztosítják a webes technológiák interoperabilitását (együttműködésre való képességét). A W3C az amerikai MIT Computer Science and Artificial Intelligence Laboratory, a franciaországi European Research Consortium for Informatics and Mathematics (ERCIM) és a japán Keio University által közösen működtetett, nemzetközi ipari konzorcium. A Konzorcium szolgáltatásai többek között: egy információs tárház a World Wide Webről fejlesztőknek és felhasználóknak, különböző prototípus- és példaalkalmazások fejlesztése az új technológiai fejlesztéseket demonstrálására. A W3C jelenleg közel 400 szervezetet számlál tagjai körében. További információkért keresse fel a http://www.w3.org/ honlapot!
- Amerikai és ausztrál kapcsolat --
- Karen Myers, <karen@w3.org>, +1.617.253.5884 vagy +1.978.502.6218
- Európai kapcsolat --
- Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94
- Ázsiai kapcsolat --
- Yasuyuki Hirakawa <yasuyuki@w3.org>, +81.466.49.1170