- anon1894
- Medlem ●
Förutsättningen för att kunna skriva riktigt snabbt på iPhones minimala tangentbord är att telefonens auto-korrektionsfunktion fungerar. Denna funktion bygger på en ordlista med de vanligaste orden. Att skapa denna ordlista är plättlätt, men vi behöver en textfil med de 20 000 - 30 000 vanligaste orden i det svenska språket. Någon som har något på lager? Eller finns det någon som vill sätta sina php-kunskaper på prov för att slänga ihop en robot som parsar ut de vanligaste orden från svenska sidor på nätet? Eller har du en idé om hur man suger ut en t9-ordlista från en mobiltelefon. Alla idéer och förslag mottas tacksamt.
/M
roade mig med lite statistisk analys av artikeln om svenska på wikipedia.se
233 och 171 i 151 * 148 som 122 av 70 är 66 de 62 en 59 med 57 det 56 på 54 att 52 till 49 den 48 svenska
Det är dock endast en 5700 ord i den artikeln och det är ju inte direkt det språk som normalt används i SMS eller som man skriver på mobilen normalt
43 lynx -nolist -dump http://sv.wikipedia.org/wiki/Svenska > svenska.txt 44 cat svenska.txt | sed 's/^[ \t]*//;s/[ \t]*$//' > tmp 45 awk '{ for (i=1;i<=NF;i++) print $i }' tmp > svenska.txt 46 sort -o svenska.txt svenska.txt 47 uniq -c svenska.txt | sort -rn | head -15 (entity@thor ~):
Det är ju dock bara en fråga om att få en nog stor textmängd för att göra det statistiskt hållbart
LEXIN-databasen innehåller ca 20 000 ord, men detta är nog inte tillåten användning.
Delar av materialet är ju nedladdningsbart och jag hittar inga restriktionsanvisningar på sidan.
Ett annat alternativ är den fria ordlista som finns på kjell.haxx.se. "Han" har kanske en frekvenstabell också?
Jag hittade följande från Språkbanken;
# --------------------------------------------------------- #
# ---- license ---- #
# --------------------------------------------------------- #
# Copyright (c) 2004 Språkbanken, Göteborgs universitet
#
# Permission is hereby granted, free of charge, to any person obtaining a
# copy of this resource and associated documentation files (the
# "Resource"), to deal in the Resource without restriction, including
# without limitation the rights to use, copy, modify, merge, publish,
# distribute, sublicense, and/or sell copies of the Resource, and to
# permit persons to whom the Resource is furnished to do so, subject to
# the following conditions:
#
# The above copyright notice and this permission notice shall be included
# in all copies or substantial portions of the Resource.
#
# THE RESOURCE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
# OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
# MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
# IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY
# CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT,
# TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
# RESOURCE OR THE USE OR OTHER DEALINGS IN THE RESOURCE.
# --------------------------------------------------------- #
Rimligtvis ger det det utrymm som behövs för att kunna använda materialet som bas för en "localized private t9", men jag är inte specialiserad på immaterial-rätt
Jag laddade ner 50k ord och det behöves ganska mycket tvättning, och komplettering, för att bli användbart. åäö är förvrängda när det kommer ner till Mac.
Delar av materialet är ju nedladdningsbart och jag hittar inga restriktionsanvisningar på sidan.
Ett annat alternativ är den fria ordlista som finns på kjell.haxx.se. "Han" har kanske en frekvenstabell också?
Gbgs universitet har listor på de tusen mest använda orden i olika material, som tidningar, romaner etc. Det kanske är något som är bra att starta med?
Databasen nertagen och konverterad till Excel - åäö tvättade - sorterad på bokstavslängd - begränsat databasen till max tolv tecken i ordet & minst tolv förekomster i ordmassan. Detta ger strax under 57k ord.
Börjar tvätta bort utländska uttryck, ortnamn, egennamn, förkortningar. Nå'n som är beredd att lämna ett handtag?
LEXIN-databasen innehåller ca 20 000 ord, men detta är nog inte tillåten användning.
Jag har tittat lite närmare på LEXIN och det är ett skämt, kan inte skilja mellan o eller mellan ö, a,å resp. ä. Klarar heller inte utrop av typen Hälsa! Vissa ord finns inte ens med. Kass!
Går det inte att få ut något från Wiktionary? http://sv.wiktionary.org/wiki/Wiktionary:Huvudsida
Nja - analyserar den inte bara keyworden i metataggarna? Det står att de arbetar på en annan lösning som ska analysera hela sidor.
Ett alternativ är annars att vi utgår från Språkbankens PAROLE 100k ord-fil och styckar den på "några flitiga" som manuellt rensar bort "mindre intressanta ord", ex.vis stadsbyggnadsborgarrådet och specialistsjukhuset.
Har dragit ner databasen med "frekvens fler en gång i ordmassan" och börjat tvätta åäö och ska försöka sortera om den i bokstavsantalaordning med bibehållen frekvensinformation - just in case.
Jag tror 57k är för mycket, nånstans har jag läst att en rättstavningsordbok bör ha runt 50k, och det borde var färre för en sån funktion som finns i iPhone. Risken är att den åstadkommer alltför mycket korkade förslag.
Mitt förslag är att koppla ihop den med rättstavningssystemet i OS X och stryka alla ord som inte godkänns där. Det är inte perfekt, men borde tvätta den någolunda.
Edit: Hade fel, kollade källan och den sa 100k. Då kanske runt 50k är lagom i iPhone då.
Jag tror 57k är för mycket, nånstans har jag läst att en rättstavningsordbok bör ha runt 50k, och det borde var färre för en sån funktion som finns i iPhone. Risken är att den åstadkommer alltför mycket korkade förslag.
Mitt förslag är att koppla ihop den med rättstavningssystemet i OS X och stryka alla ord som inte godkänns där. Det är inte perfekt, men borde tvätta den någolunda.
Edit: Hade fel, kollade källan och den sa 100k. Då kanske runt 50k är lagom i iPhone då.
Kolla källan en gång till; Står det möjligtvis inte att ordmassan måste vara större än 100k ord för att frekvenstabellen ska bli någorlunda träffsäker, dvs. komma över 95% sannolikhet att det verkligen är en statistiskt säkerställd frekvenstabell och inte ett slumpmässig utdrag bara. Att själva ordlistan ska vara på 100k ord tycker jag spontant låter mycket.
Orddatabasen jag extraherat från innehåller 20M nysvenska ord från perioden 1977-1997. Just nu är "tvätten" nere på 47k ord i ordlistan. A, X, Å, Ä och Ö är klara, bara resten kvar. A: 1875 st, ZÅÄÖ: 1045 st.
Måste hålla med någon av ovanstående talare här. Det är otroligt häftigt att se sådan entusiasm och ett sånt starkt engagemang från er sida. Och det är helt idéellt! Nä, jag kan inte göra annat än att lyfta på hatten och tacka för det grymma jobb ni gör!
Måste hålla med någon av ovanstående talare här. Det är otroligt häftigt att se sådan entusiasm och ett sånt starkt engagemang från er sida. Och det är helt idéellt! Nä, jag kan inte göra annat än att lyfta på hatten och tacka för det grymma jobb ni gör!
Jodå, Du kan erbjuda Dina krafter.
Kolla källan en gång till; Står det möjligtvis inte att ordmassan måste vara större än 100k ord för att frekvenstabellen ska bli någorlunda träffsäker, dvs. komma över 95% sannolikhet att det verkligen är en statistiskt säkerställd frekvenstabell och inte ett slumpmässig utdrag bara. Att själva ordlistan ska vara på 100k ord tycker jag spontant låter mycket.
Nej, inte för en frekvenstabell, utan en ordlista för rättstavning. I en Iphonen ska den nog vara betydligt mindre. http://www.wintertree-software.com/spell-check/dictionary-size.html
Hur tvättar du den?
OK. Jag blev inte så värst klokare av länken. Jag bestämde mig för att dent mest handlade om ordlistor till datorprogram, Word mfl. Kanske inte riktigt tillämpligt i detta fall.
Kör den mot ett antal databaser med bl.a. utländska uttryck, egennamn, nationer, organisationer, ortnamn, företagsnamn, varumärken, förkortningar.
Just nu nere på 45k ord, a-f klart, y-ö likaså, grov uppskattning 25% klart, borde landa på strax under 40k ord.
OK. Jag blev inte så värst klokare av länken. Jag bestämde mig för att dent mest handlade om ordlistor till datorprogram, Word mfl. Kanske inte riktigt tillämpligt i detta fall.
Jepp, det var det jag ville komma till.
Har inte Mac OS X en inbyggd ordlista? Kan man inte ta den?
Har inte Mac OS X en inbyggd ordlista? Kan man inte ta den?
Problemet är att du inte bara vill ha en ordlista, du vill ha frekvensen på orden. I de flesta T9-ordlistorna är orden "viktade" så att mobilen kommer med de vanligaste förslagen först.
Jag läser och blir så j-la imponerad av den energi OCH den kunskap ni har!
Losers som jag, vi bara håller tummarna för att ni ska lyckas
Keep up the good work!
A
Om någon råkar sitta på en svensk Windows Mobile telefon så kan ni få tag på dess ordlista genom att ladda upp filen t9swedish.dll som ska finnas i /Windows.
Men jag antar att det hade varit moraliskt fel att använda Microsofts ordlist på Apples telefon?
EDIT: Efter lite Googlande hittade jag den hos Modaco. Har inte en aning om hur man får ut själva ordlistan ur dll-en, men kan rekommendera det eftersom den fungerade utmärkt på min mobil.
Mitt förslag är att ringa till Svenska språknämnden eller något annat trevligt organ.