Dit is een kort (aangepast) verslag van de AES 35th International conference 2009: Audio in Games.

Door Kees Went en Sander Huiberts, HKU-KMT, Utrecht. Lectoraat Muziekontwerp onder Jan IJzermans.
11-13 februari 2009, Londen.
Inleiding
Dit was de eerste conferentie die door AES georganiseerd is die compleet in het teken stond van audio voor games. In eerdere bijeenkomsten werden wel al onderwerpen op dit gebied behandeld. De opkomst voor deze game-specifieke conferentie was anderhalf maal meer dan verwacht, men sprak dus van een succes.
De onderwerpen waren over het algemeen erg technisch, er was weinig op het artistieke vlak (maar er zit per slot van rekening ook de E van Engineering in AES). Het aanbod was interessant. De tutorials op de eerste dag waren wat basaal, zeker voor kenners of frequente bezoekers van de Game Developers Conference (GDC). De tutorialdag was voornamelijk bedoeld om mensen die niet bekend waren met game audio in te leiden. In het algemeen viel op dat in de lezingen met name sound design aan bod kwam, compositie was nauwelijks vertegenwoordigd.
Over het werkveld
Het werkveld raakt enigszins verzadigd. De mening van industrie en academici is dat een sound designer zonder programmeervaardigheden weinig kans maakt op een baan in de game-industrie. Programmeren of in elk geval scripten en algoritmiseren is namelijk onlosmakelijk verbonden met sound design voor games. Het hebben van alleen artistieke vaardigheden is niet genoeg meer, tenzij er sprake is van uitzonderlijk talent, natuurlijk.
Synthese
Het vak klankontwerp is ‘superhot’. Waren mensen uit de game-industrie eerst nog sceptisch tegenover realtime synthese en modeling (GDC 2006 en 2007), nu moet alles synthese worden. Het lijkt dat CPU-resources – die eerst de bottleneck waren – niet meer zo kostbaar zijn als opslagruimte en geheugenbandbreedte. Een groot voordeel van realtime rendering is dat door middel van scripting herhaling van steeds weer dezelfde sample voorkomen kan worden. Het bestrijden van herhaling kwam regelmatig aan de orde.
Modale synthese is daarnaast de nieuwe hype. In het kort samengevat: de attack wordt gescheiden van de resonantie. Voor de attack wordt nog steeds een sample gebruikt, maar de resonantie wordt gehersynthetiseerd. De resolutie van de hersynthese (het aantal modes) kan worden bepaald door de prioriteit die een geluidsobject heeft voor de gebruiker. Als de speler zelf een wijnglas stuk laat vallen, klinkt het geluid met de volledige resolutie, maar als een vijand in de buurt van een waterval een wijnglas stuk laat vallen, zijn maar een paar modes hoorbaar. Geluiden die minder belangrijk zijn of voor een groot deel gemaskeerd worden door andere geluiden nemen dus minder processorkracht in beslag.
Een mooie toepassing is hetzelfde object dat zich over verschillende oppervlakten beweegt. Bijvoorbeeld een knikker die rolt over hout, marmer, stof etc. Het vormgeven van deze geluiden wordt met deze technieken heel ‘elastisch’.
Er komen steeds meer voorbeelden van granulaire synthese in games. Het een eenvoudige manier om flexibel met samples om te kunnen gaan en kan veel schijfruimte besparen. Deze synthesevorm wordt ondermeer gebruikt voor ‘airspeed’, crashes en surface noise. Substractieve synthese wordt ook genoemd als interessante optie. Er wordt geëxperimenteerd met combinaties van synthese technieken. Alles kan, als het maar het gewenste resultaat oplevert.
De meest gebruikte interface voor ontwerpers, die gebruik maken van synthese, is er een met curves en envelopes (zoals in FMOD). Dit vind je op vrijwel alle platforms. Mixage vond tot nu toe dikwijls plaats door gebruik te maken van snapshots (een snapshot per situatie).
Echt interactief mixen heeft de toekomst en wordt met bovengenoemde ‘elastische’ technieken steeds haalbaarder. Dit sluit aan bij de theorie over dynamic prioritised mixing: het systeem bekijkt welke geluiden in de soundscape van een game moeten klinken en welke geluiden niet gehoord worden door de speler en dus niet afgespeeld hoeven te worden.
In Japan – waar spraaksynthesizers frequent gebruikt worden, zelfs in popmuziek – wordt veel onderzoek gedaan naar spraaksynthese en realtime spraakmorphing voor games. Dit is bijvoorbeeld te vinden in gamesystemen als Singstar, waar de speler door een microfoon zingt. Developers in de VS vinden dit weer een interessant gebied voor de VoIP toepassingen in met name First Person Shooters, waarbij gamers met elkaar kunnen overleggen tijdens het spelen van het spel en niet meer klinken als studentjes achter een computer, maar stoere mannen in een oorlogssituatie.
Het Franse bedrijf Voxler, dat samenwerkt met IRCAM, heeft de laatste tijd flink wat vorderingen gemaakt op het gebied van spraakherkenning. Een van de onderzoeken is gericht op de moeilijkheid van interpretatie van verschillende talen. Het blijkt dat Germaanse talen (o.a. Engels, Duits, Nederlands) makkelijker te interpreteren zijn dan Romaanse talen. De betekenis van woorden is al duidelijk wanneer de lettergreep met de klemtoon gepasseerd is. De rest van het woord (de uitgang) is dan niet meer belangrijk (wordt dan ook vaak slordig uitgesproken). Bij Romaanse talen (o.a. Frans, Spaans, Italiaans) zit een groot deel van de betekenis juist in de uitgang van woorden.
Surround
Surround staat hoog op de agenda, zowel 5.1/7.1 als HRTF. Er was ook veel aandacht voor elevation, de hoogte-as. Deze as wordt niet gebruikt door 5.1 en 7.1 systemen.
Verschillende concepten voor positionering van geluidsobjecten werden gepresenteerd, van panning, 5.1 (‘cheap 3d panning: no altitude cues’), hrtf en doppler (“the ‘lens-flare’ effect of audio”).
Er werd ook aandacht besteed aan technieken om ‘obstruction’ (er bevindt zich een voorwerp tussen de geluidsobject en de luisteraar) en ‘occlusion’ (het geluidsobject bevindt zich buiten de huidige ruimte), ‘portalling’ (je hoort het geluid door een ‘poort’, zoals een deuropening) vorm te geven o.a. door middel van filtering. Alle 3d-behaviours kunnen dynamisch gestuurd en gemixt worden. Volgens de ontwikkelaars draagt ruimtelijke positionering veel bij aan de beleving van de game omdat de speler daardoor, naast de positie, de snelheid en afstand van objecten beter kan bepalen.
Ook het Fraunhofer Institut houdt zich bezig met surroundversies van het MP3-formaat en MPEG-surround. Verder worden MP3’s met HRTF-codering onderzocht. Demo’s zijn te downloaden van de website (http://www.iis.fraunhofer.de/bf/amm/). Volgens Dr. Karlheinz Brandenburg (die zich presenteerde als ‘de uitvinder van MP3’) werken HRTF-MP3’s vooral goed wanneer je ze afluistert via een halfgesloten koptelefoon in dezelfde ruimte als waar ze zijn opgenomen.
Educatie
Regelmatig kwam de geslotenheid van de game industrie ten opzichte van educatieve instellingen ter sprake. Game engines zijn vaak moeilijk toegankelijk en ontwikkelaars scharen zich achter contracten die publicatie van onderzoeksresultaten verbieden. Het was opvallend dat vrijwel elke educatieve instelling hiermee worstelde.
Toch werd in een paneldiscussie duidelijk dat dit niet zo hoeft te zijn. Sony heeft programma’s voor stages en samenwerkingsverbanden, biedt regelmatig ondersteuning aan onderzoekers, maar binnen Sony is men hier niet mee bekend, of heeft men te weinig tijd om hier invulling aan te geven. Er is zelfs een aantal betaalde PhD-programma’s, maar er worden geen onderzoekers gevonden om deze te vervullen.
Tegelijkertijd geeft de industrie aan dat studenten niet over de juiste competenties beschikken. Dat hangt ook samen met de geslotenheid van de systemen: studenten kunnen pas leren werken met deze systemen als ze in dienst zijn van een game-ontwikkelaar. Twee leden van de Interactive Audio Special Interest Group(IASIG van de IGDA) werken aan een algemeen curriculum en competentielijsten voor studenten. Deze informatie is nog niet publiek gemaakt.
We hebben ook kennis gemaakt met Unity. Dit bedrijf ontwikkelt een game development tool waarmee 3d-games gemaakt kunnen worden (nu al voor Mac, binnenkort voor PC). Voor studenten betekent dit dat zij op zeer eenvoudige wijze games kunnen maken, dus ook het geluid voor 3d-omgevingen.