Denna delen av 99 uppdateras inte längre utan har arkiverats inför framtiden som ett museum.
Här kan du läsa mer om varför.
Mac-nyheter hittar du på Macradion.com och forumet hittar du via Applebubblan.

Hjälp behövs, vi behöver en lista över de vanligaste svenska orden

Tråden skapades och har fått 43 svar. Det senaste inlägget skrevs .

Förutsättningen för att kunna skriva riktigt snabbt på iPhones minimala tangentbord är att telefonens auto-korrektionsfunktion fungerar. Denna funktion bygger på en ordlista med de vanligaste orden. Att skapa denna ordlista är plättlätt, men vi behöver en textfil med de 20 000 - 30 000 vanligaste orden i det svenska språket. Någon som har något på lager? Eller finns det någon som vill sätta sina php-kunskaper på prov för att slänga ihop en robot som parsar ut de vanligaste orden från svenska sidor på nätet? Eller har du en idé om hur man suger ut en t9-ordlista från en mobiltelefon. Alla idéer och förslag mottas tacksamt.

/M

  • Medlem
  • Gävle
  • 2007-09-23 00:59

Kanske ni kan ta alla inlägg under året på 99.se, skriva ihop något smart som klumpar ihop de populäraste orden, och skickar ut dem i det format ni vill ha dem. ?

Hm, ja, vi skulle kanske kunna lasa ut vart sokindex. Problemet ar nog bara att der ar sa jakla stort och otympligt att jobba med. Bra forslag dock.

  • Medlem
  • Uppsala
  • 2007-09-23 01:21

Kan du inte indexera 99.se, och sen köra stavningskontroll på det så att vanliga felstavningar etc försvinner? Om det går att göra det automatisk alltså.

  • Medlem
  • Stockholm
  • 2007-09-23 01:28

roade mig med lite statistisk analys av artikeln om svenska på wikipedia.se

233 och
 171 i
 151 *
 148 som
 122 av
  70 är
  66 de
  62 en
  59 med
  57 det
  56 på
  54 att
  52 till
  49 den
  48 svenska

Det är dock endast en 5700 ord i den artikeln och det är ju inte direkt det språk som normalt används i SMS eller som man skriver på mobilen normalt

43      lynx -nolist -dump http://sv.wikipedia.org/wiki/Svenska > svenska.txt 
44      cat svenska.txt | sed 's/^[ \t]*//;s/[ \t]*$//' > tmp
45      awk '{ for (i=1;i<=NF;i++) print $i }' tmp > svenska.txt 
46      sort -o svenska.txt svenska.txt 
47      uniq -c svenska.txt | sort -rn | head -15
(entity@thor ~): 

Det är ju dock bara en fråga om att få en nog stor textmängd för att göra det statistiskt hållbart

  • Medlem
  • Uppsala
  • 2007-09-23 01:51

LEXIN-databasen innehåller ca 20 000 ord, men detta är nog inte tillåten användning.

http://spraakbanken.gu.se/

Ursprungligen av lobStar:

LEXIN-databasen innehåller ca 20 000 ord, men detta är nog inte tillåten användning.

http://spraakbanken.gu.se/

Delar av materialet är ju nedladdningsbart och jag hittar inga restriktionsanvisningar på sidan.

Ett annat alternativ är den fria ordlista som finns på kjell.haxx.se. "Han" har kanske en frekvenstabell också?

Jag hittade följande från Språkbanken;

# --------------------------------------------------------- #
# ---- license ---- #
# --------------------------------------------------------- #
# Copyright (c) 2004 Språkbanken, Göteborgs universitet
#
# Permission is hereby granted, free of charge, to any person obtaining a
# copy of this resource and associated documentation files (the
# "Resource"), to deal in the Resource without restriction, including
# without limitation the rights to use, copy, modify, merge, publish,
# distribute, sublicense, and/or sell copies of the Resource, and to
# permit persons to whom the Resource is furnished to do so, subject to
# the following conditions:
#
# The above copyright notice and this permission notice shall be included
# in all copies or substantial portions of the Resource.
#
# THE RESOURCE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
# OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
# MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
# IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY
# CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT,
# TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
# RESOURCE OR THE USE OR OTHER DEALINGS IN THE RESOURCE.
# --------------------------------------------------------- #

Rimligtvis ger det det utrymm som behövs för att kunna använda materialet som bas för en "localized private t9", men jag är inte specialiserad på immaterial-rätt

Jag laddade ner 50k ord och det behöves ganska mycket tvättning, och komplettering, för att bli användbart. åäö är förvrängda när det kommer ner till Mac.

Senast redigerat 2007-09-23 12:51
  • Medlem
  • Uppsala
  • 2007-09-23 13:32
Ursprungligen av leonardo:

Delar av materialet är ju nedladdningsbart och jag hittar inga restriktionsanvisningar på sidan.

Ett annat alternativ är den fria ordlista som finns på kjell.haxx.se. "Han" har kanske en frekvenstabell också?

Gbgs universitet har listor på de tusen mest använda orden i olika material, som tidningar, romaner etc. Det kanske är något som är bra att starta med?

Databasen nertagen och konverterad till Excel - åäö tvättade - sorterad på bokstavslängd - begränsat databasen till max tolv tecken i ordet & minst tolv förekomster i ordmassan. Detta ger strax under 57k ord.

Börjar tvätta bort utländska uttryck, ortnamn, egennamn, förkortningar. Nå'n som är beredd att lämna ett handtag?

Ursprungligen av lobStar:

LEXIN-databasen innehåller ca 20 000 ord, men detta är nog inte tillåten användning.

http://spraakbanken.gu.se/

Jag har tittat lite närmare på LEXIN och det är ett skämt, kan inte skilja mellan o eller mellan ö, a,å resp. ä. Klarar heller inte utrop av typen Hälsa! Vissa ord finns inte ens med. Kass!

Går det inte att få ut något från Wiktionary? http://sv.wiktionary.org/wiki/Wiktionary:Huvudsida

Har hittat ett script som visar frekvensen av ord på en webbsida, nu gäller det bara att automatisera så den söker igenom en hel webbplats... exempelvis dn.se, wikipedia.se eller 99

/M

Nja - analyserar den inte bara keyworden i metataggarna? Det står att de arbetar på en annan lösning som ska analysera hela sidor.

Ett alternativ är annars att vi utgår från Språkbankens PAROLE 100k ord-fil och styckar den på "några flitiga" som manuellt rensar bort "mindre intressanta ord", ex.vis stadsbyggnadsborgarrådet och specialistsjukhuset.

Har dragit ner databasen med "frekvens fler en gång i ordmassan" och börjat tvätta åäö och ska försöka sortera om den i bokstavsantalaordning med bibehållen frekvensinformation - just in case.

Senast redigerat 2007-09-23 13:09
  • Medlem
  • Uppsala
  • 2007-09-23 19:01

Jag tror 57k är för mycket, nånstans har jag läst att en rättstavningsordbok bör ha runt 50k, och det borde var färre för en sån funktion som finns i iPhone. Risken är att den åstadkommer alltför mycket korkade förslag.

Mitt förslag är att koppla ihop den med rättstavningssystemet i OS X och stryka alla ord som inte godkänns där. Det är inte perfekt, men borde tvätta den någolunda.

Edit: Hade fel, kollade källan och den sa 100k. Då kanske runt 50k är lagom i iPhone då.

Ursprungligen av lobStar:

Jag tror 57k är för mycket, nånstans har jag läst att en rättstavningsordbok bör ha runt 50k, och det borde var färre för en sån funktion som finns i iPhone. Risken är att den åstadkommer alltför mycket korkade förslag.

Mitt förslag är att koppla ihop den med rättstavningssystemet i OS X och stryka alla ord som inte godkänns där. Det är inte perfekt, men borde tvätta den någolunda.

Edit: Hade fel, kollade källan och den sa 100k. Då kanske runt 50k är lagom i iPhone då.

Kolla källan en gång till; Står det möjligtvis inte att ordmassan måste vara större än 100k ord för att frekvenstabellen ska bli någorlunda träffsäker, dvs. komma över 95% sannolikhet att det verkligen är en statistiskt säkerställd frekvenstabell och inte ett slumpmässig utdrag bara. Att själva ordlistan ska vara på 100k ord tycker jag spontant låter mycket.

Orddatabasen jag extraherat från innehåller 20M nysvenska ord från perioden 1977-1997. Just nu är "tvätten" nere på 47k ord i ordlistan. A, X, Å, Ä och Ö är klara, bara resten kvar. A: 1875 st, ZÅÄÖ: 1045 st.

Måste hålla med någon av ovanstående talare här. Det är otroligt häftigt att se sådan entusiasm och ett sånt starkt engagemang från er sida. Och det är helt idéellt! Nä, jag kan inte göra annat än att lyfta på hatten och tacka för det grymma jobb ni gör!

Ursprungligen av willstedt:

Måste hålla med någon av ovanstående talare här. Det är otroligt häftigt att se sådan entusiasm och ett sånt starkt engagemang från er sida. Och det är helt idéellt! Nä, jag kan inte göra annat än att lyfta på hatten och tacka för det grymma jobb ni gör!

Jodå, Du kan erbjuda Dina krafter.

  • Medlem
  • Uppsala
  • 2007-09-24 08:51
Ursprungligen av leonardo:

Kolla källan en gång till; Står det möjligtvis inte att ordmassan måste vara större än 100k ord för att frekvenstabellen ska bli någorlunda träffsäker, dvs. komma över 95% sannolikhet att det verkligen är en statistiskt säkerställd frekvenstabell och inte ett slumpmässig utdrag bara. Att själva ordlistan ska vara på 100k ord tycker jag spontant låter mycket.

Nej, inte för en frekvenstabell, utan en ordlista för rättstavning. I en Iphonen ska den nog vara betydligt mindre. http://www.wintertree-software.com/spell-check/dictionary-size.html

Hur tvättar du den?

OK. Jag blev inte så värst klokare av länken. Jag bestämde mig för att dent mest handlade om ordlistor till datorprogram, Word mfl. Kanske inte riktigt tillämpligt i detta fall.

Kör den mot ett antal databaser med bl.a. utländska uttryck, egennamn, nationer, organisationer, ortnamn, företagsnamn, varumärken, förkortningar.

Just nu nere på 45k ord, a-f klart, y-ö likaså, grov uppskattning 25% klart, borde landa på strax under 40k ord.

  • Medlem
  • Uppsala
  • 2007-09-24 12:26
Ursprungligen av leonardo:

OK. Jag blev inte så värst klokare av länken. Jag bestämde mig för att dent mest handlade om ordlistor till datorprogram, Word mfl. Kanske inte riktigt tillämpligt i detta fall.

Jepp, det var det jag ville komma till.

45 % - and counting

Har inte Mac OS X en inbyggd ordlista? Kan man inte ta den?

  • Medlem
  • Uppsala
  • 2007-09-23 19:15
Ursprungligen av wunderbaren:

Har inte Mac OS X en inbyggd ordlista? Kan man inte ta den?

Då knackar Apples advokater på imorn är jag rädd...

  • Medlem
  • International user
  • 2007-09-23 22:38
Ursprungligen av wunderbaren:

Har inte Mac OS X en inbyggd ordlista? Kan man inte ta den?

Problemet är att du inte bara vill ha en ordlista, du vill ha frekvensen på orden. I de flesta T9-ordlistorna är orden "viktade" så att mobilen kommer med de vanligaste förslagen först.

Jag läser och blir så j-la imponerad av den energi OCH den kunskap ni har!

Losers som jag, vi bara håller tummarna för att ni ska lyckas

Keep up the good work!

A

  • Medlem
  • International user
  • 2007-09-23 22:28

Om någon råkar sitta på en svensk Windows Mobile telefon så kan ni få tag på dess ordlista genom att ladda upp filen t9swedish.dll som ska finnas i /Windows.

Men jag antar att det hade varit moraliskt fel att använda Microsofts ordlist på Apples telefon?

EDIT: Efter lite Googlande hittade jag den hos Modaco. Har inte en aning om hur man får ut själva ordlistan ur dll-en, men kan rekommendera det eftersom den fungerade utmärkt på min mobil.

Mitt förslag är att ringa till Svenska språknämnden eller något annat trevligt organ.

  • Medlem
  • Kungsbacka
  • 2007-09-24 13:57

Alla svärord e nog bra att ha i t9

Lugnt - min moral tillåter mig inte att censurera ordlistan utifrån vad jag själv anser vara vårdat språk. Kn-ll- är med, liksom alla andra svordomar, könsord och "sämre språk" som fanns i ordmassan.

Bevaka tråden