- Tussen69
- Medlem ●
- Borås
Läste lite om vad OS X 10.5 kan ha att erbjuda . Låter nästan sci-fi ..
http://hrmpf.com/wordpress/62/spotlight-voice-recognition-and-ocr/
Vad det handlar är att OS X 10.5 kan komma att innehålla secundära metadata ..
ok.. vad är metadata ...
metadata är information som berättar om vad ex. filen innehåller, audio, video, vad för typ av kamera bilden är tagen med .. ja ni förstår ..
vad är då secundär meta data ...
jo tänk följande ..
du har en bild på ett utav dina barn ... men du har även typ 1000 andra bilder på det barnet .. men filerna heter helt olika och du vet inte vart du har dom ...
vad OS X 10.5 kan göra är att den kan söka alla dina bilder på datorn och hitta dom bilderna där just det barnet är med ... oavset om det är ett gruppfoto eller porträttfoto, vad filerna heter, eller vart dom ligger .. OS X 10.5 analyserar bilderna ... men visst det kan ju bli lite problem om det är en tviling vi pratar om ... eller så kan du be OS X 10.5 hitta alla bilderna på din dator som innehåller ett .. träd ?
elller tänk dig att du har 50.000 låtar och men vill bara ha dom låtarna som är pop låtar ... vad OS X 10.5 kan göra är att det analyserar låtarna och bestämmer vad för typ av musik, vilken typ av sångare .. och ja till och med kan plocka ur/söka texten som sångaren sjunger ... även fast denna information inte ligger inbakad i mp3-filen från början ...
visst låter det otroligt häftigt ... men det är ju klart det är ju Apple och OS X 10.5 vi pratar om ...
visst låter det otroligt häftigt ... men det är ju klart det är ju Apple och OS X 10.5 vi pratar om ...
Hur är källan? Trovärdig?
Otroligt nice om det är sannt, men man ska även komma ihåg att det även är rykten (?) vi pratar om
Hoppas gör jag men frågan är om man vågar det då besvikelsen blir stor om det inte blir sanning
Jonas
Menar de att man t ex skulle kunna nynna en låt i mikrofonen, Spotlight letar fram rätt låt i iTunes-biblioteket och börjar sedan spela den?
för det första så är källan rätt trovärdig . vad jag förstår är det en patent som apple har gjort angående den nya finder/spotlight motorn ..
angående nynna .. nja inte riktigt ...
OS X 10.5 ska tydligen använda ett gäng kända tekniker .. så som röst igenkäning, ansiktsigenkänning m.m. .. samma teknik som du finner i hjärnan på sonys Q-rio (AI-robot)
ideen är att skappa en secundär metadata till varje fil vilket gör det grymt smidigt att hitta grejer .. i den secundära metadatan finns information om filen i frågan fast till skilland från första hands metadata så innehåller den secundära metadatan information om bilden/ljudfilen som OS X analyserat . Detta kan vara ex ansiktet på en person ..
detta ansikte får du en speciel ID tag...
detta gör att om du av en viss anledning vill söka din dator efter alla bilder som din flickvän är med på så kan OS X göra just det..
gällande ljud så kan OS X via FFT & speach rech-teknik analysera låten och säga vad det är för musik stil, typ av sångare, typ av text ... så att om du via finder/spotlight vill finna alla låtar som är av typen jazz och där frank sinatra är med och sjunger så kan OS X hitta det ... eller du kan en bit av låt texten men vet inte vilken låt det var ... då kan OS X hitta det ...
eftersom all analyserad data lagras i den sekundära metadatan så går sökningen väldigt snabbt eftersom spotlight endast söker i metadatan och inte gör en analys förän ex filen har modefierats ..
tekniken är inget nytt eller revelotionerande .. finns redan idag och användes inom många olika områden ... men det finns inte inbyggt i något OS idag ... (vad jag vet)
Jag har även läst om att vi kommer se röst-synthes på flera olika språk.. bl.a Svenska .
enligt de ritningar/patenter (om jag uppfata det rätt) jag set så kommer finder att liknande funktioner som vi kan se redan idag i tex Adobe Bridge ..
Menar de att man t ex skulle kunna nynna en låt i mikrofonen, Spotlight letar fram rätt låt i iTunes-biblioteket och börjar sedan spela den?
Varför inte?
Läste för ett tag sedan på typ macfeber/maximac..., eller vad det vad, om ett program (eller var det rent av en widget?) som man kunde be analysera låten du hörde på radion och sedan ge dig dess data.
Provade aldrig detta program så jag vet inte om detta hocus pocus fungerar. (Om ngn läst det samma och sparat länken, får ni gärna peka)
/ kalle borch
Menar de att man t ex skulle kunna nynna en låt i mikrofonen, Spotlight letar fram rätt låt i iTunes-biblioteket och börjar sedan spela den?
Jag skickade faktiskt feedback till apple om exakt detta för ett par år sen. Mest på skoj, men det vore faktiskt en killerfunktion eftersom jag hade just det problemet då. De kanske lyssnade
Om det stämmer är detta helt otroligt.
Men självklart skulle det kunna vara möjligt.
Men frågan är om det inte är lite av en önskedröm, samt att jag hoppas att de först o främst får nuvarande sökfunktion att fungera.
Wheii, en sökfunktion som är ännu slöare än spotlight!
Inte för att jag vill stjäla någons glädje över Leopard, men det finns ett par punkter att ta i beaktande:
* Det finns inga belägg för att dessa funktioner kommer att ingå i Leopard; det är artikelförfattarens egen spekulation. (Det finns inga belägg för någon tidsaspekt överhuvudtaget. Apple har trots allt en hel hög med patent som *aldrig* blivit realiserade, liksom de flesta innovativa företag.)
* Att klassificera data är många gånger en icke entydig process. Vi människor har inga (större) problem med att hantera gråzoner eller andra kompromisser och mellanting. Maskiner har inte lika lätt för det. Om jag ex. tar en bild med en brännvidd över 200 mm och en slutartid på under 1/1000 s, så kan det faktiskt vara såväl en actionbild som ett porträtt, ett landskap eller en macrobild. Likaså kan jag mycket väl ta en panorerad actionbild med en slutartid på 1/60 s. Kanske är det en macro-action-djurporträttbild av två Goliatbaggar som slåss, med Kalahari som bakgrund... Detta dilemma blir än mer tydligt om vi ger oss på att börja klassificera och analysera konstnärliga aspekter...
Självklart tyckar jag att det är bra och intressant att det bedrivs forskning på det här området, annars skulle vi ju aldrig komma nån vart, men än så länge är maskinernas förmåga ganska långt från den mänskliga. Dock börjar den kanske närma sig det stadiet då den i alla fall har potential att bli användbar.
Inte för att jag vill stjäla någons glädje över Leopard, men det finns ett par punkter att ta i beaktande:
* Det finns inga belägg för att dessa funktioner kommer att ingå i Leopard; det är artikelförfattarens egen spekulation. (Det finns inga belägg för någon tidsaspekt överhuvudtaget. Apple har trots allt en hel hög med patent som *aldrig* blivit realiserade, liksom de flesta innovativa företag.)
* Att klassificera data är många gånger en icke entydig process. Vi människor har inga (större) problem med att hantera gråzoner eller andra kompromisser och mellanting. Maskiner har inte lika lätt för det. Om jag ex. tar en bild med en brännvidd över 200 mm och en slutartid på under 1/1000 s, så kan det faktiskt vara såväl en actionbild som ett porträtt, ett landskap eller en macrobild. Likaså kan jag mycket väl ta en panorerad actionbild med en slutartid på 1/60 s. Kanske är det en macro-action-djurporträttbild av två Goliatbaggar som slåss, med Kalahari som bakgrund... Detta dilemma blir än mer tydligt om vi ger oss på att börja klassificera och analysera konstnärliga aspekter...
Självklart tyckar jag att det är bra och intressant att det bedrivs forskning på det här området, annars skulle vi ju aldrig komma nån vart, men än så länge är maskinernas förmåga ganska långt från den mänskliga. Dock börjar den kanske närma sig det stadiet då den i alla fall har potential att bli användbar.
sant... men å andra sidan .. hade man förväntat sig för 20 år sedan att en tv kunde vara 4 cm platt eller att en telefon kunde vara lika liten som en klocka ...
Vad vi än ser så bör ändå OS X 10.5 vara bra mycket mer än buggfixar .... ju mer vista närmar sig ju mer har nog Apple trycket på sig att leverera ett OS som sträcker sig åratal framför vista i sin technologi ...
själv tycker jag det är kul att spekulera fast vad vi än säger så är det ju Apple som kommer vissa os under WWDC 2006 vad som gäller ...
bara en sådan enkel grej som www.onev.com/mcc/ där du kan styra ditt mediacenter smidigt med rösten och där röst-synthesen vore på bla Svenska skulle lätt få många att lyfta på ögonbrynnen ... och med en bra voice tracker mic -> www.acousticmagic.com .. så lär ju meningen med fjärrkontroll snart vara överflödig ..
bara en sådan enkel grej som www.onev.com/mcc/ där du kan styra ditt mediacenter smidigt med rösten och där röst-synthesen vore på bla Svenska skulle lätt få många att lyfta på ögonbrynnen ... och med en bra voice tracker mic -> www.acousticmagic.com .. så lär ju meningen med fjärrkontroll snart vara överflödig ..
Röststyrning har funnits rätt länge. Problemet är bara att folk inte gillar att snacka med sina prylar. Undertecknad inkluderad.
sant... men å andra sidan .. hade man förväntat sig för 20 år sedan att en tv kunde vara 4 cm platt eller att en telefon kunde vara lika liten som en klocka ...
Nu jämför du äpplen och päron.
Men _om_ den här teknologin skulle komma så är det en "feature" vi kan vara säkra att den finns där. Det kommer inte att fungera till 100%!
Nu jämför du äpplen och päron.
nä inte riktigt ... vad jag menar är att i den takten som Microsoft håller på att kopiera Apple ... och det skall tillägas att tar man en tit på Vista så är kopieringen skrämande stor ... får mig att komma ihåg hur Microsoft kopierade Apples OS och kallade det för Windows ...
hur som helst med den takten som Microsoft håller på att kopiera Apple så kommer nog funktionerna i OS X 10.5 (tror jag) vara så bra att Vista känns omodernt ....
det känns som morgondagens OS är väldigt nära ... så nu är det dags för mig att dra hem för dagen ...
Tycker du Spotlight är segt?
"enligt de ritningar/patenter (om jag uppfata det rätt) jag set så kommer finder att liknande funktioner som vi kan se redan idag i tex Adobe Bridge .."
Tussen kan du beskriva mer i detalj för de som inte är så inne på vad Adobe bridge är.
Och oavsett vad som kommer eller ej så är det alltid kul med tanar kring detta.
Att man kan analysera en bild är en sak men hur kan man analysera musik och få fram tex Frank Sinatra? Hur funkar detta rent tekniskt.
Sen undrar jag vad de som tycker att Spotlight inte alltid hittar de man söker kommer tycka om detta, chansen att man söker på sin tjej och får fram en massa andra måste vara stor.
Sen så är detta ett patent men det behöver inte betyda att det kommer till 10.5.
Tycker du Spotlight är segt?
yep det tycker jag och jag hoppas dom kommer förbättra det betydligt
"enligt de ritningar/patenter (om jag uppfata det rätt) jag set så kommer finder att liknande funktioner som vi kan se redan idag i tex Adobe Bridge .."
Tussen kan du beskriva mer i detalj för de som inte är så inne på vad Adobe bridge är.
Och oavsett vad som kommer eller ej så är det alltid kul med tanar kring detta.
http://www.adobe.com/se/products/creativesuite/bridge.html
Att man kan analysera en bild är en sak men hur kan man analysera musik och få fram tex Frank Sinatra? Hur funkar detta rent tekniskt.
Audio File Processing for Secondary Metadata
Having problems finding that song? The one you played yesterday around noon and has a jazzy sort of beat and the singer was born in your home town? Maybe Spotlight will be able to help you find that song.
The analysis may include one or more of the analyses described above, individually or in combination. For example, according to one embodiment, at block 3102, a frequency analysis (e.g., using spectrum analysis/filtering techniques) may be performed to determine the type of the music (e.g., Jazz or classical), and other audio related information.
Furthermore, according to one embodiment, one or more external resources may be invoked to determine additional information regarding the audio. For example, external Web or database services may be invoked to determine biography information of the artist, and GPS services may be invoked to determine location and date when the audio was recorded (e.g., the location and date of the concert).
Any text (if there is any) existed in the audio, such as, for example, words used in a song, may be recognized, for example, using OCR techniques. Thereafter, any text metadata processing techniques, such as those described above (e.g., similar to operations of FIG. 27) may be applied to obtain additional information.
According to a further embodiment, the external resources 2307 may be invoked by the metadata importer 2302. In certain embodiments, the metadata importer may analyze, based on an algorithm, the audio file to derive additional metadata. For example, the metadata importer can keep track of when a song was last played and determine a pattern (e.g. the song is normally played within an hour of noon) and based upon this pattern, time related metadata or other metadata can be created. This time related metadata can be used to find songs played at a certain time or be used to create a time based favorites list.
Sen undrar jag vad de som tycker att Spotlight inte alltid hittar de man söker kommer tycka om detta, chansen att man söker på sin tjej och får fram en massa andra måste vara stor.
Sen så är detta ett patent men det behöver inte betyda att det kommer till 10.5.
vem vet ...
Frågan är hur väl dom algoritmerna funkar, dock med ett bra användar-gui så man kan fixa och putta programmet i rätt riktning så kan det bli riktigt bra.
Jag tror dom kan fungera rätt bra ... vissa algoritmer för att göra just detta är ganska basic ... för att utvinna rösten behöver man först en Voice Isolater Algorithm
Extra Boy Pro har en grymt bra realtids algorithm för att Röst Isolera
http://www.paulrharvey.co.uk/elevayta/product13.htm
och speach -> text .. ja det är ju rätt välkänd teknik idag ..
Jag tror dom kan fungera rätt bra ... vissa algoritmer för att göra just detta är ganska basic ... för att utvinna rösten behöver man först en Voice Isolater Algorithm
Extra Boy Pro har en grymt bra realtids algorithm för att Röst Isolera
http://www.paulrharvey.co.uk/elevayta/product13.htm
och speach -> text .. ja det är ju rätt välkänd teknik idag ..
Jo det är sant att algoritmerna för tal är ganska bra idag. Det har dock ingenting med algoritmerna för bild, för datamängden är för stor och man har helt enkelt inte lika bra koll på hur man ska låta datorn tolka all den infon. Det finns ett antal algoritmer som gör olika saker när det kommer till igenkänning. de flesta jag har sett handlar om thumbnails på 200x200 och det var inget en standard pc gorde lite diskret i bakgrunden. Sen har vi problemet med att man inte alltid tittar rakt in i bilden, sådanna distortioner är extremt svårt för en dator att uppfatta.
Om det nu skulle komma en sådan funktion i 10.5 tror jag säkert att den är cool och ganska kul. Tror inte att den i första steget är nått man tar in i sitt workflow.
Det låter ju riktigt trevlig med en sån sökfunktion, men det jag tror endå får lida är prestandan. Det kommer att ta mycket mera av datorn, och kommer göra finder och allt annat mycket segare fall den ska sitta och analysera allt nytt som kommer.
Säg att man har varit ute och tagit några nya rullar och kommre hem med 100talet bilder, ska den då analysera alla dom för att sedan se vad som finns på dom.
Är det då menat att man ska gå och ta en kaffe paus imellan den söker och man kan börja söka själv?
Men som sakt, det finns säker lösningar på det där också och funktionen i sig själv ser jag ingen nackdel med, utan bara fördelar.
Oj, oj, oj... datorerna vi har i dag är inte till närmelsevis tillräckligt snabba för att syssla med såna saker, förutsatt att Apple inte har gjort något ofattbart smart (vilket de sällan gör). Självklart *går* det att analysera innehållet i en bild, men inte tillräckligt träffsäkert, eller snabbt, för att det ska kunna användas för att söka rätt på en speciell bild.
Jag tror inte att en dator (i dag) på det viset snabbare hittar en bild än man gör själv faktiskt. Man kan ju faktiskt snabbt hitta just den bild man vill, utan att tänka, bland hundra tumnaglar. Datorn måste analysera bildens alla beståndsdelar, och checka mot en databas som någon i Californien har gjort. Jag ser så många källor till fel att det är rent löjligt.
Oj, oj, oj... datorerna vi har i dag är inte till närmelsevis tillräckligt snabba för att syssla med såna saker, förutsatt att Apple inte har gjort något ofattbart smart (vilket de sällan gör). Självklart *går* det att analysera innehållet i en bild, men inte tillräckligt träffsäkert, eller snabbt, för att det ska kunna användas för att söka rätt på en speciell bild.
Jag tror inte att en dator (i dag) på det viset snabbare hittar en bild än man gör själv faktiskt. Man kan ju faktiskt snabbt hitta just den bild man vill, utan att tänka, bland hundra tumnaglar. Datorn måste analysera bildens alla beståndsdelar, och checka mot en databas som någon i Californien har gjort. Jag ser så många källor till fel att det är rent löjligt.
öööö vet ej ... jag såg en video från en mässa nyligen där en webbaserad applikation gjorde precis detta och det gick ganska snabbt ... och vädligt säkert ...
tror det var - > http://www.riya.com/
här är videon
http://news.com.com/1606-2-6037142.html
öööö vet ej ... jag såg en video från en mässa nyligen där en webbaserad applikation gjorde precis detta och det gick j*vlgt snabbt ... och vädligt säkert ...
tror det var - > http://www.riya.com/
här är videon
http://news.com.com/1606-2-6037142.html
Mjo, men att jämföra serverbaserade lösningar med sånt som ska köras på G4'an här hemma är ju lite fusk.
Fast en dag så kommer vi ju att sitta med en dator med tillräcklig kraft på skrivbordet. Frågan är bara när.
De man kan hoppas är väl att Apple inte nu "flummar bort sig", genom att skapa en ny sökfunktion som bygger på ovanstående och sen också lägger de som bas i en ny Finder och sen tar bort de traditionella sättet att arbeta. Skulle krångla till de rejält, men man vet ja aldrig vad visionären Steve har i sike.
Jag vill (precis som spot) inte heller förstöra en intressant tråd genom att komma med motargument varför vissa saker inte stämmer, men jag har inte stött på någon algoritm som är bättre än runt 75-85% på engelskt tal vid transkription. Vid avancerad eller förlåtande röststyrning är siffran ofta sämre än så tyvärr. Det vore en revolution inom talteknologin om Apple kunde prestera någonstans runt de 99% som är gränsen för vad människor accepterar vid normalanvändning.
En del av de här sakerna finns ju redan i konsumentproduker. Kör man Photoshop Elements på Windows så finns dels "face detection"* och "find similar images"
Det första bygger på att vissa mönster som kännetecknar hur mänskliga ansikten är uppbyggda jämförs med bilden, och det andra på att t.ex. bildens färgspektra kan analyseras.
Observera dock att face detection inte är samma sak som face recognition, dvs det är en sak att analysera att en bild innehåller ett eller flera mänskliga ansikten, men att sedan avgöra vem ansiktet föreställer är en helt annan femma.
Den stora nackdelen med såna här teknologier är att för att uppnå hög träffsäkerhet så måste de baseras på relativt högupplösta bilder - glöm tumnagelsebilder - och det gör att det blir långsamt om det är stora mängder.
En del av de här sakerna finns ju redan i konsumentproduker. Kör man Photoshop Elements på Windows så finns dels "face detection"* och "find similar images"
Det första bygger på att vissa mönster som kännetecknar hur mänskliga ansikten är uppbyggda jämförs med bilden, och det andra på att t.ex. bildens färgspektra kan analyseras.
Observera dock att face detection inte är samma sak som face recognition, dvs det är en sak att analysera att en bild innehåller ett eller flera mänskliga ansikten, men att sedan avgöra vem ansiktet föreställer är en helt annan femma.
Den stora nackdelen med såna här teknologier är att för att uppnå hög träffsäkerhet så måste de baseras på relativt högupplösta bilder - glöm tumnagelsebilder - och det gör att det blir långsamt om det är stora mängder.
det stämmer inte riktigt att det behövs hög upplösning på bilderna, de flesta jag har sett har använt någonstans runt 250x250 eller i den regionen. Däremot behöver dagens algoritmer ofta ganska stora mängder träningsdata, altså många bilder.
Om de fixar Spotlight så att den blir riktigt bra så är jag nöjd. Om de även lägger till möjligheten att kunna söka på ljud, musik och bilder med en träffsäkerhet på 20% så dör inte jag. Bara det inte påverkar mitt ordinarie arbete.
Angående röststyrning - jag tror det är bra att ha men allvarligt - jag tror min fru skulle byta bostad om jag satt o pratade med min mac oxå. Eller så skulle hon jävlas o säga "stäng av".
Det måste finnas bättre sätt att arbeta med en dator än att snacka med den.
Ang. "face detection" så kanske det kommer ingå i någon form av inloggning med tanke på att alla nya macdatorer har isight inbyggt - för inte är det enbart för ichat eller? För vem använder det.