• <td id="ae6ms"><li id="ae6ms"></li></td>
  • <xmp id="ae6ms"><td id="ae6ms"></td><table id="ae6ms"></table>
  • <table id="ae6ms"></table>
  • <td id="ae6ms"></td>
    <td id="ae6ms"></td>
  • <table id="ae6ms"></table><table id="ae6ms"><td id="ae6ms"></td></table>
  • <td id="ae6ms"></td>
  • <table id="ae6ms"><li id="ae6ms"></li></table>
  • <table id="ae6ms"></table>
    西西軟件園多重安全檢測下載網站、值得信賴的軟件下載站!
    軟件
    軟件
    文章
    搜索

    首頁編程開發其它知識 → 學習Python語言中文怎么輸出

    學習Python語言中文怎么輸出

    相關軟件相關文章發表評論 來源:西西整理時間:2014/8/17 11:17:07字體大?。?em class="fontsize">A-A+

    作者:西西點擊:844次評論:0次標簽: Python

    《派森》(Python)3.13 win32 英文安裝版
    • 類型:編程工具大?。?i>21M語言:英文 評分:8.7
    • 標簽:
    立即下載

    Python中文是蟒蛇,Python是著名的“龜叔”Guido van Rossum在1989年圣誕節期間,為了打發無聊的圣誕節而編寫的一個編程語言。比如,完成同一個任務,C語言要寫1000行代碼,Java只需要寫100行,而Python可能只要20行。
    我發表這個貼子是想讓更多人去認識Python。Python語言很好上手,語句簡單明了,不像C++  .  VB等語言復雜。Python語言涉及到很多方面,比如3D游戲等。
    如果想計算50+100的結果是多少,C語言和VB語言等一大串的代碼,而Python計算50+100的代碼只需要這樣“50+100”
     
    如果不信的話,大家可以用Python試一試這段代碼。

    輸出的代碼
    print 后加引號輸出的文字
    例:print '基德逗逗'  (Python是 不允許加中文的,如果加中文的話請看一下教程)
     
    出現錯誤提示,怎么回事,接著往下看

    print語句后也可以跟上多個字符串,使用的方法是用逗號隔開
    例:print '你是男人', '不用謝'    (Python是 不允許加中文的,如果加中文的話請看一下教程)            
     
    出現錯誤提示,怎么回事,接著往下看

    中文的加法在前面寫入代碼:
    # encoding: utf-8
    print '你是男人', '不用謝'

    修改了代碼之后,還是錯誤,最會得知原來標點符號錯了,'打成了‘
    這次代碼對了,很興奮,大概就是寫代碼的樂趣吧!
     

    使用nltk來處理中文資料

    nltk 怎么樣使用中文?這是個大問題。這么個工具目前只能比較好的處理英文和其他的一些拉丁語系,誰讓別人的單詞與單詞之間有個空格隔開呢!中文漢字一個挨一個的,nltk在分詞這一關就過不去了,分詞沒法分,剩下的就都做不了。唯一能做的, 就是對網上現有的中文語料進行處理,這些語料都分好了詞,可以使用nltk進行類似與英文的處理。

    python處理中文首先需要設置一下文本的編碼, 文件的首行加上: #coding utf-8 這個是給python解釋器識別的,然后文件保存的時候,還需要保存為utf-8的編碼。

    這些編碼設置完了, ntlk還是處理不了中文。

    nltk處理中文的第一步障礙就是中文資料不是分好詞的, 詞語與詞語之間沒有空格。要使用nltk對中文進行處理, 首先的第一步就是中文分詞(臺灣叫中文斷詞)。

    目前python中文分詞的包,我推薦使用結巴分詞。 使用結巴分詞,之后,就可以對輸出文本使用nltk進行相關處理。

    當然中文分詞, 不應該成為使用nltk的障礙,或許很多人認為,既然用nltk,那么nltk就應該支持中文。但是我們得認清現實,現實就是nltk就是不支持處理中文,因此,這個給國內很多自然語言處理的研究人員有了研究的空間了,nltk既然沒做中文分詞,那么中國人就應該自己做了這個。一個口碑比較好的中文分詞工具就是ICTCLAS中文分詞。

    當然,我個人覺得中國人自己開發的純python實現的結巴分詞也不錯。

    總的來說,nltk不提供中文分詞,不應該糾結于此,并止步不前,我們完全可以使用其他的中文分詞工具,將需要處理的資料分好詞,然后再使用nltk進行處理,因此,這里就不多說中文分詞的那點事了。如果你因為中文分詞而分心,并轉向到中文分詞的研究之中,那么你就掉入了另外一個深坑之中。牢記本文的主題是nltk。當然需要多啰嗦一點的就是,nltk的默認詞性標注集使用的是Penn Treebank 的詞性標注集,因此,你選用中文分詞模塊的時候,最好能夠使用和penn詞性標注集差不多的中文分詞工具,當然,不一樣也沒事。

      相關評論

      閱讀本文后您有什么感想? 已有人給出評價!

      • 8 喜歡喜歡
      • 3 頂
      • 1 難過難過
      • 5 囧
      • 3 圍觀圍觀
      • 2 無聊無聊

      熱門評論

      最新評論

      發表評論 查看所有評論(0)

      昵稱:
      表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
      字數: 0/500 (您的評論需要經過審核才能顯示)
      女人让男人桶30分钟免费视频,女人张开腿让男人桶个爽,一进一出又大又粗爽视频
    • <td id="ae6ms"><li id="ae6ms"></li></td>
    • <xmp id="ae6ms"><td id="ae6ms"></td><table id="ae6ms"></table>
    • <table id="ae6ms"></table>
    • <td id="ae6ms"></td>
      <td id="ae6ms"></td>
    • <table id="ae6ms"></table><table id="ae6ms"><td id="ae6ms"></td></table>
    • <td id="ae6ms"></td>
    • <table id="ae6ms"><li id="ae6ms"></li></table>
    • <table id="ae6ms"></table>