如何写一个正则表达式匹配这个网页中的歌词:小幸运 我试写了几次没能写正确.
1
knightdf 2016-07-22 17:37:44 +08:00
用 xpath 把。。
|
2
Hello1995 2016-07-22 17:46:18 +08:00 via Android
找到 api ,直接用?
|
3
yexiaoxing 2016-07-22 17:54:02 +08:00
r'(?:<div class="lrc_main">)((.|\n)*)(?:<\/div>)'
或者……抓 class lrc_main 的内容嘛 |
5
protream OP @yexiaoxing 这个有问题.
我试了用 beautifulsoup 抓 lrc_main 的内容, 但是有问题, 你可以试试 |
6
9hills 2016-07-22 18:09:31 +08:00
用 https://regex101.com/ 之类的网站 debug 吧
|
7
yexiaoxing 2016-07-22 18:10:57 +08:00
@protream 问题是啥?
|
8
protream OP @yexiaoxing
``` lyric = soup.find('div', class_='lrc_main') ``` 结果如下: <div class="lrc_main"> 让我能做回我自己我勇气<br/>幸运<br/> <br/>在青青草地<br/> </div> 用的是 html.parser, 貌似有 bug. |
9
chairuosen 2016-07-22 18:16:22 +08:00
就不应该用正则,试试 pyquery
|
11
zhouxuchen 2016-07-22 18:18:03 +08:00 via iPhone
pyquery+1
|