Så funkar digitalt ljud

99 drar igång en serie guider om digitalt ljud. Du får lära dig hur det fungerar, varför det låter som det gör, olika format och varför Bluetooth är så krångligt.

Den digitala musiken har sedan länge blivit regel snarare än undantag, och det är idag ovanligt att höra något spelas upp som inte har åtminstone någon digital komponent i den långa kedjan mellan en låtskrivares idé och dina öron.

Lite slarvigt kallar många all digital musik för mp3, om den överhuvudtaget kallas något annat än bara "musik". Mp3 är onekligen formatet som startade den digitala musikrevolutionen via nedladdning i slutet av 1990-talet och början av 2000-talet. Ändå är mp3 bara ett format bland många, och så var det redan under dess storhetstid. Idag är andra ljudformat vanligare än rena mp3-filer.

I den gär guiden kommer jag att reda ut begreppen på ett begripligt sätt, och beskriva både de flesta olika ljudformat som används av konsumenter idag, och även gå igenom vad som händer med ljud när det digitaliseras. Du kommer få lära dig svåra ord som komprimering, kvantisering och kompression, och varför nästan ingen pratar om ATRAC längre. Vi ska även gå igenom trådlösa ljudprotokoll så som Bluetooth och Airplay.

Behöver jag veta allt det här?

Ärligt talat, förmodligen inte. En gång för inte så värst länge sedan fanns det inte strömmande musiktjänster, inga digitala butiker och piratnedladdning var inte olagligt (rent juridiskt). Då gällde det att ha koll på sitt digitala ljud.

Nuförtiden lever vi i en enklare och bekvämare tidsålder, och du behöver inte ligga vaken om nätterna och grubbla på vilka format det nya Britney Spears-albumet kommer att distribueras i, eller vilket kodek Spotify använder för din favoritlista. Det går att njuta ohämmat av all musik utan att veta ett enda jota om hur digitalt ljud fungerar.

Men! Det finns faktiskt fördelar med att sätta sig in i grunderna av den digitala musikens underbara värld. Till exempel får du bättre möjligheter att välja format och kvalitet utifrån dina egna öron, dina preferenser och din utrustning så att det låter så bra som möjligt. Ett exempel är trådlösa hörlurar och högtalare vilket blir allt vanligare, och lägger ytterligare ett lager teknik att ta ställning till.

Att ha koll på ungefär hur det går till när ett ljud spelas upp i din mobil kan faktiskt göra det ännu mer njutbart att lyssna. Det är faktiskt så, att det aldrig någonsin tidigare har varit så billigt och enkelt att både lyssna på all världens musik när som helst, utan också få den att låta riktigt bra.

Så häng med i 99:s ljudskola! Vi börjar från början, med lite gammal hederlig högstadiefysik.

Ljud är en mekanisk våg vars frekvenser faller inom intervallet för hörsel. Människor kan som en tummregel höra ljud i området mellan 20 och 20 000 Hertz. Hertz är enheten för att mäta frekvens, vilket är hur många gånger en händelse repeteras inom ett givet tidsintervall. 1 Hertz är en händelse som inträffar en gång per sekund.

När det gäller ljudvågor (och andra vågor) syftar Hertz helt enkelt på antalet cykler i vågformen, alltså hur många gånger vågen repeteras per sekund, eller antalet svängningar. 20 Hertz är således 20 svängningar per sekund.

Vi ska också nämna begreppet amplitud, vilket är avståndet mellan ytterläget och nolläget i en svängningsrörelse, eller en våg. För en havsvåg skulle amplituden alltså vara avståndet mellan vågtoppen och dess mittläge, vilket är havsytan på ett stilla hav. Amplitud är bra att känna till när vi pratar om digitalt ljud och sampling, vilket vi ska göra alldeles strax.

Hörsel och högtalare

När vi människor hör, är det för att våra öron har förmågan att fånga upp dessa ljudvågor, som får trumhinnan inuti örat att vibrera på grund av tryckförändringarna. Dessa vibrationer registreras och skickas till hörselcentrum i hjärnan för hantering. Det finns många detaljer här att grotta ner sig i, och det är heller inte helt fastställt av vetenskapen hur ljudet sedan tolkas. Men låt oss lämna den diskussionen därhän, och koncentrera oss på hur ljud genereras, så att det kan fångas upp av våra öron.

Vi hör alltså genom att ljudet orsakar vibrationer vilka tolkas. När ljudvågor genereras är det på ett liknande sätt genom att något vibrerar, till exempel ett högtalarelement. För att väldigt enkelt beskriva hur inspelat ljud fungerar kan vi säga att en ljudsignal först skapas som elektrisk energi utifrån ett färdigställt mönster som lagras på ett medium (till exempel på en vinylskiva eller ett kassettband). Signalen förstärks och skickas därefter till en högtalare, som omvandlar den elektriska signalen till akustisk energi, det vill säga ljudvågorna vi beskrev tidigare. Högtalarens element har ett membran som vibrerar i takt med signalen, och ljudvågorna fångas sedan upp av våra öron.

Inspelat ljud läses av ett lagringsmedium till en elektrisk signal, som förstärks och omvandlas till en akustisk signal.

Detta är lite av en förenkling, och i själva verket består förstärkningen av ett försteg (preamp eller förförstärkare) som väljer vilka signalkällor som ska tas emot och vad som ska göras med dem, till exempel reglera bas- och diskantnivå, volymkontroll och mycket mer. Därefter sker själva signalförstärkningen av ett slutsteg. Dessa två komponenter är oftast ihopbyggda i form av en integrerad förstärkare, men i vissa situationer hålls de separerade, till exempel för att undvika elektriska störningar med brus som resultat. Att ha separata försteg och slutsteg ger också användaren högre kontroll över kedjan, så att exempelvis en av komponenterna kan bytas ut utan att båda måste göra det. Kanske har du också hört ordet receiver, med vilket menas en integrerad förstärkare där man också lagt till en radiomottagare i samma enhet.

Beroende på vilket medium som ska spelas upp, alltså vilken signalkälla som används, kan det också behövas ytterligare utrustning. En vinylspelare behöver en egen förstärkare som kallas RIAA-steg som kompenserar så att låga frekvenser får högre signalstyrka och höga frekvenser dämpas. Detta beror på vinylformatet, där man ibland dämpar amplituden på låga toner för att få rum med fler spår på skivan, eller ibland ökar amplituden på höga toner för att minska brus. Många vinylspelare idag har inbyggda RIAA-steg, medan andra kräver ett separat.

Låt oss heller inte glömma bort själva högtalarna, som också består av flera komponenter. Ljudsignalen delas oftast upp mellan olika högtalarelement, där varje element hanterar en egen del av frekvensområdet. Basregistret är de mullrande och djupa bastonerna i området 20–200 Hz, alltså de lägsta ljud människor kan höra. Högfrekventa ljud kallas diskant, och ligger i området 2 000 till 20 000 Hz, alltså de högsta ljud människor kan höra. Frekvenserna däremellan kallas mellanregister, och innefattar exempelvis vanligt tal – här är människans öra som känsligast och bäst på att höra. Vi kan också hastigt nämna subwoofern, eller subbasen, som är en särskild högtalare som hjälper till med de allra djupaste frekvenserna.

Lyxigare högtalare har separata element för alla dessa tre register, medan enklare modeller kan ha ett element som hanterar hela registret. En mycket vanlig kompromiss är tvåvägshögtalaren, som består av ett element för diskant och ett större som hanterar både bas- och mellanregister. En faktor i sammanhanget är att höga toner är mer riktningsbestämda än djupa toner, eftersom lägre frekvenser har längre våglängder som lättare rör sig genom olika material. Du har kanske konstaterat att basljudet från grannens nya tv-högtalare hörs mycket tydligt genom väggen, medan diskantljudet inte hörs alls.

Det här innebär också rent praktiskt att högtalarens placering i ett rum blir viktig, eftersom ljudvågorna kan reflekteras mot väggar och andra hinder så som möbler. Detta kan försämra ljudupplevelsen och i värsta fall förstöra den – prova till exempel att flytta in högtalaren i det kaklade badrummet, där kommer ljudvågorna att studsa runt och förmodligen bilda en kakafoni (missljud). Lösningen är att klä alla väggar i ditt hem med ljudabsorberande material (äggkartonger går bra), eller åtminstone fundera över högtalarsystemets placering. Vissa högtalare går att rikta mot lyssningspositionen, och en del moderna högtalare har till och med automatiska sensorer för att avgöra hur omgivningen ser ut och var lyssnaren är.

Sådär, nu har vi skrivit en hel del om grundläggande ljudlära och utrustning, men den här guiden handlar om digitalt ljud, och det ska vi gå in djupare på nu. Till att börja med, om du har en digital signalkälla till din stereo, till exempel en cd-spelare eller mp3-spelare, krävs ytterligare en komponent, nämligen en så kallad D/A-omvandlare (digital-analog-omvandlare) som omvandlar en digital signal till en analog. På engelska kallas detta DAC (Digital-Audio-Converter).

Precis som andra komponenter kan en DAC finnas inbyggd i en cd-spelare eller förstärkare, eller bestå av en separat del. Många delar blir det alltså, och många strömsladdar. Det är nog inte konstigt att de flesta vardagslyssnare idag föredrar integrerade system där flera av de här komponenterna samsas i samma chassi. Aktiva högtalare har en inbyggd förstärkare, så det behövs bara kopplas in en ljudkälla. Apples högtalare Homepod får anses utgöra den yttersta punkten i integrerade system då den inte har några ingångar alls för att koppla in ljud, förutom en Wifi-antenn som tar emot trådlösa signaler.

Datorer lagrar inte ljud i sig, utan information. För att ett analogt ljud ska kunna digitiseras måste det därför omvandlas till ettor och nollor, och detta sker genom sampling. En sampling är helt enkelt en statisk representation av en vågform. Vi kan föreställa oss det hela som en kamera som fotograferar ljudvågen och sparar en bild av den. Eller många bilder rättare sagt, hur många samplingar som tas per sekund kallas samplingsfrekvens. Det kan för enkelhetens skull också anges i Hertz. En samplingsfrekvens på 1 000 Hertz betyder alltså att det digitala ljudet består av 1 000 samplingar per sekund. Denna digitalisering av det analoga kallas Pulskodmodulering, eller PCM. Varje sampling tilldelas också ett så kallat bitvärde.

Hur hög samplingsfrekvens behövs då för att göra det analoga originalet rättvisa? Jo, det kan matematikerna Harry Nyquist och Claude Shannon berätta. Bägge två formulerade ungefär samtidigt hur många mätpunkter som behövdes för att återskapa en signal. Enligt dessa måste ett ljud samplas med en frekvens som är minst det dubbla av ljudets bandbredd för korrekt återgivning. Detta kallas för Nyquist-Shannons samplingsteorem och är helt grundläggande för digitalisering av ljud. Det innebär alltså att om en analog signal har en frekvens på 1 000 Hertz, så måste samplingsfrekvensen vara 2 000 Hertz för att det inte ska uppstå återgivningsfel.

Inom musik brukar det talas om dynamik, vilket är skillnaden mellan den starkaste och den svagaste delen av ett musikstycke. Ett stycke där det är stor skillnad mellan svaga och starka ljud har hög dynamik, och ett stycke där det är liten skillnad har låg dynamik. Ett exempel är om du ska spela in en hel symfoniorkester; då måste du både kunna fånga piccolaflöjtens soloparti (svagt) och när hela orkestern tar i från tårna (starkt). Det här ställer krav på den digitala inspelningen att den ska kunna fånga hela det dynamiska omfånget.

I en analog signal kommer alla värden från den starkaste delen till den svagaste att finnas med, men i en digital signal finns bara ett begränsat antal värden att tilldela varje sampling. Hur många värden som finns att välja på beror på bitdjupet. En bit är grundenheten för information som kan anta ett av två värden nämligen noll eller ett. Av eller på. Att beskriva en sampling med bara 1 bit ger därför som vi kan förstå väldigt dåliga möjligheter att återskapa ljud med hög dynamik.

En normal ljud-cd använder ett bitdjup på 16 bitar, vilket innebär 2 upphöjt till 16 variationer, alltså 65 536 stycken. Det betyder att varje sampling kan tilldelas ett av 65 536 olika värden. Med 8 bitars ljud kan varje sampling tilldelas ett av 256 olika värden (28). 16 bitars ljud möjliggör därför en mycket mer detaljerad och korrekt återgivning av varje enskild sampling, och kan fånga analoga ljudsignaler med högre dynamik. I båda fallen är det dock samma princip, att den analoga vågen måste kvantiseras och tilldelas ett digitalt värde för varje sampling som görs.

Vi kan alltså säga såhär: det digitala ljudets kvalitet avgörs av två saker: samplingsfrekvens, som anger hur ofta ljudet läses av, och bitdjup, som anger hur noga ljudets amplitud beskrivs. Och med kvalitet i det här fallet menar vi bara hur väl det analoga originalljudet återges, ingenting om hur vackert eller njutbart ljudet är.

Kvantiseringsfel och brus

Decibel används ofta för att beskriva ett ljuds styrka. Det vi ska veta är att decibel är en logaritmisk skala som endast mäter skillnaden utifrån en referenspunkt. 0 decibel (dB) innebär att effekten är densamma som referensnivån, och 10 dB innebär att ljudeffekten är tio gånger högre än den. 20 dB innebär att effekten är 100 gånger högre än referensnivån, 30 dB att den är 1 000 gånger högre och så vidare.

Ofta när vi pratar om decibelnivå handlar det om höga ljud, exempelvis en jumbojet som startar låter ungefär 140 decibel. Referenspunkten vi då utgår från är den mänskliga hörseltrösken, alltså det lägsta ljud ett normalt öra kan höra. 0 decibel är då alltså det lägsta ljud vi kan höra. Det är bra att känna till decibel när vi nu ska gå igenom brusnivå och kvantiseringsfel.

Vi nämnde tidigare bitdjupet, och hur det avgör hur många mätvärden en digital sampling kan använda sig av för att återskapa en analog ljudsignal. Oavsett om vi samplar det analoga ljudet med 8, 16 eller 24 bitar kommer varje samplingspunkt att behöva kvantiseras till ett digitalt värde. Ju högre bitdjup desto fler värden att välja på, men samplingen måste alltid avrundas till det närmaste digitala värde vi har till buds. Det kommer därför alltid finnas en liten skillnad mellan den analoga ljudvågen och det digitala ljudets sampling.

Denna skillnad mellan det verkliga värdet och det kvantiserade värdet kallas kvantiseringsfel, och yttrar sig som ett brus eller lågt ljud. Detta kallas ofta SNR, eller signal-to-noise ratio och beskriver skillnaden mellan hur mycket önskvärd signal man får jämfört med oönskad signal (alltså brus). Detta uttrycks i decibel. Om SNR-värdet är 0 dB innebär det lika mycket brus som önskad signal, och högre än så innebär mer önskad signal än brus. Ju högre SNR-värde, desto renare ljud helt enkelt. Dynamiskt omfång brukar detta också kallas, och på en normal cd-skiva är denna runt 96 decibel.

Det är ingen slump att vi flera gånger redan använt cd-skivan som exempel, det är nämligen fortfarande mer eller mindre den standard som digitalt ljud utgår från, och formatet utformades noga runt sin tänkta publik, nämligen människor. Vi ska därför avsluta denna första del av ljudskolan med en kort genomgång av formatet cd-da, alltså det digitala ljud som hittas på cd-skivor.

Red Book-standarden

Under 1970-talet tog tekniken ett stort kliv framåt, och digital utrustning började allt mer ersätta den analoga vid inspelning och produktion. Fördelen är lätt att förstå – en digital signal kan sparas om, flyttas runt och lagras utan någon kvalitetsförlust. Ett praktiskt problem som uppstod med helt analoga inspelningar är faktiskt att masterinspelningarna började degradera i kvalitet, eftersom de slets ut när det gjordes fler och fler kopior som användes för att pressa skivor och kassettband.

Cd-skivan (compact disc) utvecklades av företagen Sony och Philips, och redan 1980 släpptes de tekniska specifikationerna för formatet fastän den inte började säljas kommersiellt förrän 1982. Enligt legenden distribuerades dokumentet med specifikationerna i en röd pärm, och därför kallas den Red Book Standard. Traditionen har därefter gått i samma spår, när det slogs fast specifikationer för andra format som cd-rom och video-cd.

Standard

År

Typ

Red Book

1980

cd-da, digital audio

Green Book

1986

cd-i, interactive

Yellow Book

1988

cd-rom

Orange Book

1990

cd-r, cd-rw (skrivbara)

Beige Book

1992

photo cd

White Book

1993

vcd/svcd (video)

Blue Book

1995

e-cd, enchanced cd (ljud och data)

Scarlett Book

1999

sacd, super audio cd

Purple Book

2000

ddcd (double density)

Red Book beskriver både cd-skivans fysiska format, och dess tekniska specifikationer. Mest intressant för oss är såklart vilken teknisk kvalitet ljudet fick, nämligen en samplingsfrekvens på 44,100 (44,1 KHz) och 16 bitars mätvärde vilket ger 65,536 olika mätpunker för varje sampling – detta ger ett teoretiskt högsta dynamiskt omfång på 96 dB. Formatet erbjuder två ljudkanaler (höger och vänster), upp till 74 minuter inspelat ljud, och upp till 99 olika ljudspår. Senare versioner av standarden har dock fått upp längden till 79,57 minuter.

Så, varför användes just frekvensen 44,1 KHz? Det enkla och korta svaret är att just den frekvensen redan användes för att spela in digitalt ljud på videobandspelare. En bättre förklaring får vi genom att påminna oss om Nyquist-Shannons samplingsteorem. Som ni minns stipulerade den att en vågrörelse måste samplas med en frekvens som är minst det dubbla av signalens bandbredd för att den ska kunna återges exakt. Och eftersom en ung människa normalt kan höra frekvenser upp till 22 000 Hz, så måste en digital signal som vill fånga detta ha en samplingsfrekvens på minst 44 000 Hz.

Den exakta frekvensen 44,1 KHz valdes eftersom den användes i en metod för att konvertera digitalt ljud med en så kallad PCM-adaptor till analoga videosignaler för lagring på magnetband. Detta var på den tiden det mest kostnadseffektiva sättet att transportera inspelningar från studion till cd-produktionen, så cd-formatet anammade denna frekvens.

Cd-skivans uppgång och fall

Cd-skivan togs emot med blandade känslor, men till slut vann formatet konsumenternas hjärtan. Musikbranschen fortsatte att göra musik utifrån det redan etablerade album-formatet från vinylskivan. Jämfört med en lp-skiva kunde en cd-skiva få plats med lite längre speltid, och det passade därför utmärkt att återutge gamla vinylklassiker med två eller tre extralåtar i slutet. För skivbolagen var den här perioden en riktig guldålder, då cd erbjöd ett enkelt och relativt billigt sätt att producera nya versioner av redan existerande musik, samtidigt som priserna kunde stiga med motiveringen att ett nytt format erbjöd högre ljudkvalitet och möjligheter till bonusmaterial.

Superstjärnor som Michael Jackson, Whitney Houston och Madonna dominerade topplistorna, och cd-skivan tycktes ödesbestämd att dominera musikindustrin för all framtid. Vinylskivorna försvann allt längre bak i skivbutikerna, tills nya album oftast inte ens släpptes på vinyl. Kassettbanden fanns kvar som ett alternativ, främst för de som ville lyssna på bärbara musikspelare. Men under 90-talet kom också bärbara cd-spelare, och även kassettbanden trängdes undan.

Det stora hotet mot cd-skivan kom i form av internet, och uppkomsten av så kallade komprimerade ljudformat med mp3 som skivbolagens fiende nummer ett. Plötsligt gick det att hämta hem låtar digitalt, i överkomlig storlek och med ljudkvalitet nästan lika bra som en cd-skiva. Helt gratis dessutom, och dåtidens lagstiftning var inte uppdaterad för att säga något om piratnedladdningen. Musikälskare världen över började använda sig av Direct Connect, Napster och Audio Galaxy för att snabbt bygga upp stora bibliotek av mp3-filer på sina datorer. Musikindustrins nära förestående död spåddes av diverse orakel.

Så illa blev det nu inte, men det är lätt att föreställa sig undergångstonerna på Warner, Sony och Universal under senare delen av 1990-talet. För lyssnarna framstod däremot de nya möjligheterna som himmelriket. För varför betala 200 kronor för en cd-skiva när det ändå bara var två låtar som var intressanta?

Nu handlar inte den här guiden om vare sig piratkopiering eller musikpolitik, utan om själva ljudet. Men det som möjliggjorde hela den moderna musikrevolutionen var inte i sig att musik kunde digitaliseras, utan att effektiva och tillräckligt bra komprimeringsformat blev tillgängliga. Om en okomprimerad låt på en cd-skiva tog upp runt 100 megabyte kunde komprimering banta ned filstorleken till närmare 10 megabyte. Fullt möjligt att ladda hem från nätet, även över dåtidens begränsade uppkoppling.

Detta kommer vi att gå in närmare på i ljudskolans nästa del, där vi ska koppla greppet om komprimering och de olika format som cirkulerar. Vi ska gå också gå in mer på djupet – eller bitdjupet rättare sagt – när det gäller så kallad högupplöst musik. Därefter ska vi också snöa in ordentligt på trådlösa ljudprotokoll, och se om vi kan komma fram till vad som är bra ljud, på riktigt. Dessutom blir det såklart en del kortare avstickare, för ljud och ljudlära är ett riktigt kaninhål med många slingrande sidogångar. Jag hoppas ni vill följa med!

Väl mött i nästa del!