Denna delen av 99 uppdateras inte längre utan har arkiverats inför framtiden som ett museum.
Här kan du läsa mer om varför.
Mac-nyheter hittar du på Macradion.com och forumet hittar du via Applebubblan.

Jakobs ljudskola

Så funkar digitalt ljud

99 drar igång en serie guider om digitalt ljud. Du får lära dig hur det fungerar, varför det låter som det gör, olika format och varför Bluetooth är så krångligt.

Digitalt ljud och sampling

Datorer lagrar inte ljud i sig, utan information. För att ett analogt ljud ska kunna digitiseras måste det därför omvandlas till ettor och nollor, och detta sker genom sampling. En sampling är helt enkelt en statisk representation av en vågform. Vi kan föreställa oss det hela som en kamera som fotograferar ljudvågen och sparar en bild av den. Eller många bilder rättare sagt, hur många samplingar som tas per sekund kallas samplingsfrekvens. Det kan för enkelhetens skull också anges i Hertz. En samplingsfrekvens på 1 000 Hertz betyder alltså att det digitala ljudet består av 1 000 samplingar per sekund. Denna digitalisering av det analoga kallas Pulskodmodulering, eller PCM. Varje sampling tilldelas också ett så kallat bitvärde.

Hur hög samplingsfrekvens behövs då för att göra det analoga originalet rättvisa? Jo, det kan matematikerna Harry Nyquist och Claude Shannon berätta. Bägge två formulerade ungefär samtidigt hur många mätpunkter som behövdes för att återskapa en signal. Enligt dessa måste ett ljud samplas med en frekvens som är minst det dubbla av ljudets bandbredd för korrekt återgivning. Detta kallas för Nyquist-Shannons samplingsteorem och är helt grundläggande för digitalisering av ljud. Det innebär alltså att om en analog signal har en frekvens på 1 000 Hertz, så måste samplingsfrekvensen vara 2 000 Hertz för att det inte ska uppstå återgivningsfel.

Inom musik brukar det talas om dynamik, vilket är skillnaden mellan den starkaste och den svagaste delen av ett musikstycke. Ett stycke där det är stor skillnad mellan svaga och starka ljud har hög dynamik, och ett stycke där det är liten skillnad har låg dynamik. Ett exempel är om du ska spela in en hel symfoniorkester; då måste du både kunna fånga piccolaflöjtens soloparti (svagt) och när hela orkestern tar i från tårna (starkt). Det här ställer krav på den digitala inspelningen att den ska kunna fånga hela det dynamiska omfånget.

I en analog signal kommer alla värden från den starkaste delen till den svagaste att finnas med, men i en digital signal finns bara ett begränsat antal värden att tilldela varje sampling. Hur många värden som finns att välja på beror på bitdjupet. En bit är grundenheten för information som kan anta ett av två värden nämligen noll eller ett. Av eller på. Att beskriva en sampling med bara 1 bit ger därför som vi kan förstå väldigt dåliga möjligheter att återskapa ljud med hög dynamik.

En normal ljud-cd använder ett bitdjup på 16 bitar, vilket innebär 2 upphöjt till 16 variationer, alltså 65 536 stycken. Det betyder att varje sampling kan tilldelas ett av 65 536 olika värden. Med 8 bitars ljud kan varje sampling tilldelas ett av 256 olika värden (28). 16 bitars ljud möjliggör därför en mycket mer detaljerad och korrekt återgivning av varje enskild sampling, och kan fånga analoga ljudsignaler med högre dynamik. I båda fallen är det dock samma princip, att den analoga vågen måste kvantiseras och tilldelas ett digitalt värde för varje sampling som görs.

Vi kan alltså säga såhär: det digitala ljudets kvalitet avgörs av två saker: samplingsfrekvens, som anger hur ofta ljudet läses av, och bitdjup, som anger hur noga ljudets amplitud beskrivs. Och med kvalitet i det här fallet menar vi bara hur väl det analoga originalljudet återges, ingenting om hur vackert eller njutbart ljudet är.

Kvantiseringsfel och brus

Decibel används ofta för att beskriva ett ljuds styrka. Det vi ska veta är att decibel är en logaritmisk skala som endast mäter skillnaden utifrån en referenspunkt. 0 decibel (dB) innebär att effekten är densamma som referensnivån, och 10 dB innebär att ljudeffekten är tio gånger högre än den. 20 dB innebär att effekten är 100 gånger högre än referensnivån, 30 dB att den är 1 000 gånger högre och så vidare.

Ofta när vi pratar om decibelnivå handlar det om höga ljud, exempelvis en jumbojet som startar låter ungefär 140 decibel. Referenspunkten vi då utgår från är den mänskliga hörseltrösken, alltså det lägsta ljud ett normalt öra kan höra. 0 decibel är då alltså det lägsta ljud vi kan höra. Det är bra att känna till decibel när vi nu ska gå igenom brusnivå och kvantiseringsfel.

Vi nämnde tidigare bitdjupet, och hur det avgör hur många mätvärden en digital sampling kan använda sig av för att återskapa en analog ljudsignal. Oavsett om vi samplar det analoga ljudet med 8, 16 eller 24 bitar kommer varje samplingspunkt att behöva kvantiseras till ett digitalt värde. Ju högre bitdjup desto fler värden att välja på, men samplingen måste alltid avrundas till det närmaste digitala värde vi har till buds. Det kommer därför alltid finnas en liten skillnad mellan den analoga ljudvågen och det digitala ljudets sampling.

Denna skillnad mellan det verkliga värdet och det kvantiserade värdet kallas kvantiseringsfel, och yttrar sig som ett brus eller lågt ljud. Detta kallas ofta SNR, eller signal-to-noise ratio och beskriver skillnaden mellan hur mycket önskvärd signal man får jämfört med oönskad signal (alltså brus). Detta uttrycks i decibel. Om SNR-värdet är 0 dB innebär det lika mycket brus som önskad signal, och högre än så innebär mer önskad signal än brus. Ju högre SNR-värde, desto renare ljud helt enkelt. Dynamiskt omfång brukar detta också kallas, och på en normal cd-skiva är denna runt 96 decibel.

Det är ingen slump att vi flera gånger redan använt cd-skivan som exempel, det är nämligen fortfarande mer eller mindre den standard som digitalt ljud utgår från, och formatet utformades noga runt sin tänkta publik, nämligen människor. Vi ska därför avsluta denna första del av ljudskolan med en kort genomgång av formatet cd-da, alltså det digitala ljud som hittas på cd-skivor.

Red Book-standarden

Under 1970-talet tog tekniken ett stort kliv framåt, och digital utrustning började allt mer ersätta den analoga vid inspelning och produktion. Fördelen är lätt att förstå – en digital signal kan sparas om, flyttas runt och lagras utan någon kvalitetsförlust. Ett praktiskt problem som uppstod med helt analoga inspelningar är faktiskt att masterinspelningarna började degradera i kvalitet, eftersom de slets ut när det gjordes fler och fler kopior som användes för att pressa skivor och kassettband.

Cd-skivan (compact disc) utvecklades av företagen Sony och Philips, och redan 1980 släpptes de tekniska specifikationerna för formatet fastän den inte började säljas kommersiellt förrän 1982. Enligt legenden distribuerades dokumentet med specifikationerna i en röd pärm, och därför kallas den Red Book Standard. Traditionen har därefter gått i samma spår, när det slogs fast specifikationer för andra format som cd-rom och video-cd.

Standard

År

Typ

Red Book

1980

cd-da, digital audio

Green Book

1986

cd-i, interactive

Yellow Book

1988

cd-rom

Orange Book

1990

cd-r, cd-rw (skrivbara)

Beige Book

1992

photo cd

White Book

1993

vcd/svcd (video)

Blue Book

1995

e-cd, enchanced cd (ljud och data)

Scarlett Book

1999

sacd, super audio cd

Purple Book

2000

ddcd (double density)

Red Book beskriver både cd-skivans fysiska format, och dess tekniska specifikationer. Mest intressant för oss är såklart vilken teknisk kvalitet ljudet fick, nämligen en samplingsfrekvens på 44,100 (44,1 KHz) och 16 bitars mätvärde vilket ger 65,536 olika mätpunker för varje sampling – detta ger ett teoretiskt högsta dynamiskt omfång på 96 dB. Formatet erbjuder två ljudkanaler (höger och vänster), upp till 74 minuter inspelat ljud, och upp till 99 olika ljudspår. Senare versioner av standarden har dock fått upp längden till 79,57 minuter.

Så, varför användes just frekvensen 44,1 KHz? Det enkla och korta svaret är att just den frekvensen redan användes för att spela in digitalt ljud på videobandspelare. En bättre förklaring får vi genom att påminna oss om Nyquist-Shannons samplingsteorem. Som ni minns stipulerade den att en vågrörelse måste samplas med en frekvens som är minst det dubbla av signalens bandbredd för att den ska kunna återges exakt. Och eftersom en ung människa normalt kan höra frekvenser upp till 22 000 Hz, så måste en digital signal som vill fånga detta ha en samplingsfrekvens på minst 44 000 Hz.

Den exakta frekvensen 44,1 KHz valdes eftersom den användes i en metod för att konvertera digitalt ljud med en så kallad PCM-adaptor till analoga videosignaler för lagring på magnetband. Detta var på den tiden det mest kostnadseffektiva sättet att transportera inspelningar från studion till cd-produktionen, så cd-formatet anammade denna frekvens.

Cd-skivans uppgång och fall

Cd-skivan togs emot med blandade känslor, men till slut vann formatet konsumenternas hjärtan. Musikbranschen fortsatte att göra musik utifrån det redan etablerade album-formatet från vinylskivan. Jämfört med en lp-skiva kunde en cd-skiva få plats med lite längre speltid, och det passade därför utmärkt att återutge gamla vinylklassiker med två eller tre extralåtar i slutet. För skivbolagen var den här perioden en riktig guldålder, då cd erbjöd ett enkelt och relativt billigt sätt att producera nya versioner av redan existerande musik, samtidigt som priserna kunde stiga med motiveringen att ett nytt format erbjöd högre ljudkvalitet och möjligheter till bonusmaterial.

Superstjärnor som Michael Jackson, Whitney Houston och Madonna dominerade topplistorna, och cd-skivan tycktes ödesbestämd att dominera musikindustrin för all framtid. Vinylskivorna försvann allt längre bak i skivbutikerna, tills nya album oftast inte ens släpptes på vinyl. Kassettbanden fanns kvar som ett alternativ, främst för de som ville lyssna på bärbara musikspelare. Men under 90-talet kom också bärbara cd-spelare, och även kassettbanden trängdes undan.

Det stora hotet mot cd-skivan kom i form av internet, och uppkomsten av så kallade komprimerade ljudformat med mp3 som skivbolagens fiende nummer ett. Plötsligt gick det att hämta hem låtar digitalt, i överkomlig storlek och med ljudkvalitet nästan lika bra som en cd-skiva. Helt gratis dessutom, och dåtidens lagstiftning var inte uppdaterad för att säga något om piratnedladdningen. Musikälskare världen över började använda sig av Direct Connect, Napster och Audio Galaxy för att snabbt bygga upp stora bibliotek av mp3-filer på sina datorer. Musikindustrins nära förestående död spåddes av diverse orakel.

Så illa blev det nu inte, men det är lätt att föreställa sig undergångstonerna på Warner, Sony och Universal under senare delen av 1990-talet. För lyssnarna framstod däremot de nya möjligheterna som himmelriket. För varför betala 200 kronor för en cd-skiva när det ändå bara var två låtar som var intressanta?

Nu handlar inte den här guiden om vare sig piratkopiering eller musikpolitik, utan om själva ljudet. Men det som möjliggjorde hela den moderna musikrevolutionen var inte i sig att musik kunde digitaliseras, utan att effektiva och tillräckligt bra komprimeringsformat blev tillgängliga. Om en okomprimerad låt på en cd-skiva tog upp runt 100 megabyte kunde komprimering banta ned filstorleken till närmare 10 megabyte. Fullt möjligt att ladda hem från nätet, även över dåtidens begränsade uppkoppling.

Detta kommer vi att gå in närmare på i ljudskolans nästa del, där vi ska koppla greppet om komprimering och de olika format som cirkulerar. Vi ska gå också gå in mer på djupet – eller bitdjupet rättare sagt – när det gäller så kallad högupplöst musik. Därefter ska vi också snöa in ordentligt på trådlösa ljudprotokoll, och se om vi kan komma fram till vad som är bra ljud, på riktigt. Dessutom blir det såklart en del kortare avstickare, för ljud och ljudlära är ett riktigt kaninhål med många slingrande sidogångar. Jag hoppas ni vill följa med!

Väl mött i nästa del!

Kommentarer
23 svar

Inget är som väntans tider, särskilt om du går och väntar på en iMac med Apples egna processor.

Inom kort kommer 99mac bli Macradion och då blir det en ny plattform med ett betydligt modernare forum.

Då var Apple Watch Series 7 här och ryktena stämde inte i år utan det blev samma design som vi sedan tidigare är vana vid.

Varje resa har ett slut och varje slut har en ny början och nu är det dags för oss att gå över till en modern plattform.

Apples event är över och i detta extra långa avsnitt får vi följa Marcus, Marcus, Dennis och Thor när de följer eventet live tillsammans med efterföljande diskussion om intrycken det gav.

Är du en av de som inte gillade det nya utseendet på Safari i macOS Monterey? Nu kan du lugna dig, Apple har backat på designen.