V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
shierji
V2EX  ›  Python

能帮老师我 DEBUG 下这个小脚本么

  •  
  •   shierji ·
    reee · 2014-03-24 13:46:52 +08:00 · 3155 次点击
    这是一个创建于 4019 天前的主题,其中的信息可能已经有所发展或是发生改变。
    呃。毕业设计需要写一个小程序。化学老湿压力好大。
    基本上的目的就是把一篇文章先分句再分词。然后与一个给定的关键词列表对比,如果对上了就返回结果。

    我写倒是写出来了,但是无论怎样都没有结果。昨天看了一天了……求哪位大神有时间帮忙看一下

    gist在这里:

    #!/usr/bin/env python
    # coding:utf-8
    import os
    import jieba
    # Define where we put the files
    source_dictionary = "/opt/ht/source"
    keywords_file = "/opt/ht/keywords-new.txt"
    result_file = "/opt/ht/result.txt"
    # Convert the Keywords into a list
    keywords_list = []
    f = file(keywords_file)
    while True:
    line = f.readline()
    if len(line) == 0:
    break
    keywords_list.append(line)
    # Deal With the source file
    file_list = os.listdir(source_dictionary)
    r_file = open(result_file, "w")
    for files in file_list:
    s_article = open(files).read()
    s_sentence = s_article.split(u"。".encode("utf-8"))
    for sentences in s_sentence:
    words_list = list(jieba.cut(sentences,cut_all=False))
    result = list(set(words_list) & set(keywords_list))
    for words in result:
    r_file.write("%s;" % words)
    r_file.write("\n")
    r_file.write("A New File Start")
    r_file.close()
    view raw split-and-comp hosted with ❤ by GitHub
    2 条回复    1970-01-01 08:00:00 +08:00
    freeznet
        1
    freeznet  
       2014-03-24 13:52:14 +08:00
    如果能把样本文件发出来应该会更好
    shierji
        2
    shierji  
    OP
       2014-03-24 23:58:11 +08:00
    @freeznet 嗯我基友帮我看了下。一个是去掉空格一个是编码不同。我正在修改呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1301 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:41 · PVG 01:41 · LAX 10:41 · JFK 13:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.