2021/6/21

OpenCC

OpenCC 是 Open Chinese Convert 的縮寫,是轉換中文簡繁的工具

安裝

pip install opencc-python-reimplemented

轉換的模式有以下這幾種:

  • hk2s: 繁體中文 (香港) -> 簡體中文
  • s2hk: 簡體中文 -> 繁體中文 (香港)
  • s2t: 簡體中文 -> 繁體中文
  • s2tw: 簡體中文 -> 繁體中文 (台灣)
  • s2twp: 簡體中文 -> 繁體中文 (台灣, 包含慣用詞轉換)
  • t2hk: 繁體中文 -> 繁體中文 (香港)
  • t2s: 繁體中文 -> 簡體中文
  • t2tw: 繁體中文 -> 繁體中文 (台灣)
  • tw2s: 繁體中文 (台灣) -> 簡體中文
  • tw2sp: 繁體中文 (台灣) -> 簡體中文 (包含慣用詞轉換 )

有兩種使用方式

  • 在 python 程式中使用

    from opencc import OpenCC
    
    tw2s = OpenCC("tw2s")
    tw2sp = OpenCC("tw2sp")
    s2tw = OpenCC("s2tw")
    s2twp = OpenCC("s2twp")
    
    print( tw2s.convert("香煙(英語:Cigarette),為煙草製品的一種。滑鼠是一種很常見及常用的電腦輸入設備。") )
    
    # 香烟(英语:Cigarette),为烟草制品的一种。滑鼠是一种很常见及常用的电脑输入设备。
    
    print( tw2sp.convert("香煙(英語:Cigarette),為煙草製品的一種。滑鼠是一種很常見及常用的電腦輸入設備。") )
    
    # 香烟(英语:Cigarette),为烟草制品的一种。鼠标是一种很常见及常用的电脑输入设备。
    
    print( tw2s.convert("人工智慧(英語:artificial intelligence,縮寫為AI)亦稱智械、機器智慧,指由人製造出來的機器所表現出來的智慧。通常人工智慧是指透過普通電腦程式來呈現人類智慧的技術。") )
    # 人工智慧(英语:artificial intelligence,缩写为AI)亦称智械、机器智慧,指由人制造出来的机器所表现出来的智慧。通常人工智慧是指透过普通电脑程式来呈现人类智慧的技术。
    
    print( tw2sp.convert("人工智慧(英語:artificial intelligence,縮寫為AI)亦稱智械、機器智慧,指由人製造出來的機器所表現出來的智慧。通常人工智慧是指透過普通電腦程式來呈現人類智慧的技術。") )
    # 人工智能(英语:artificial intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指透过普通电脑程序来呈现人类智能的技术。
    
  • Command line

    s$ python -m opencc --help
    usage: __main__.py [-h] [-i <file>] [-o <file>] [-c <conversion>]
                       [--in-enc <encoding>] [--out-enc <encoding>]
    
    optional arguments:
      -h, --help            show this help message and exit
      -i <file>, --input <file>
                            Read original text from <file>. (default: None)
      -o <file>, --output <file>
                            Write converted text to <file>. (default: None)
      -c <conversion>, --config <conversion>
                            Conversion (default: None)
      --in-enc <encoding>   Encoding for input (default: UTF-8)
      --out-enc <encoding>  Encoding for output (default: UTF-8)
    python -m opencc -c tw2s -i s_input_file.txt -o tw_output_file.txt
    
    python -m opencc -c tw2sp -i s_input_file.txt -o twp_output_file.txt

References

開放中文轉換(Pure Python)

沒有留言:

張貼留言