Jag ska ställa den riktigt frågan nu... jag försöker utvinna text ut en webbsidan.
Så här ser en del av den webbsidan ut:
<div class="articles">
<h4>I dag</h4>
<ul class="block">
<li>
<span>07:11</span>
<a href="/nyheter/sverige/buss-av-vagen-utanfor-mariestad">Buss av vägen utanför Mariestad</a>
</li>
<li>
<span>06:53</span>
<a href="/nyheter/sverige/facket-domer-ut-superlararna">Facket dömer ut ”superlärarna”</a>
</li>
Jag kan hitta alla span. Jag kan hitta alla li. Men det slutresultat jag vill ha är:
['7:11', '/nyheter/sverige/buss-av-vagen-utanfor-mariestad','Buss av vägen utanför Mariestad' osv ]
Problemet med denna är just att span är utan class eller id vilket ha gjort det så mycket enklare...
Min kod just nu:
for li in soup.find_all('li'):
s = li.find('span')
if s.string != None:
result = re.match('[1-9]', s.text)
print result
Regex är inte min starta sida. Med denna får jag ut alla span inte rikigt vad jag vill ha... med denna kod vill jag få ut en massa tider.