淘寶商品 title 產品詞辨識
秋千 儿童 室内 婴儿幼儿童室内荡秋千户外 宝宝玩具
儿童六一礼物儿童室内秋千户外吊椅室外荡秋千家用运动健身器材
幼儿园儿童组合滑梯淘气堡室内滑梯宝宝游乐园滑滑梯秋千玩具包邮
加厚滑滑梯儿童室内幼儿园婴儿玩具家用滑梯秋千组合海洋球球池
滑梯批发 幼儿园儿童滑梯 室外最畅销塑料滑梯 秋千组合滑滑梯
游乐设施幼儿园玩具户外大型小区儿童组合工程塑料室外幼儿园滑梯
以上字段是從淘寶網上爬取的標題,可以看出商家習慣性的把所有關鍵字塞進去,且沒明顯的分界。
目標是要將上面的句子分詞,並找出哪些是產品名。
python3 find_pattern/find_frequency_pattern_by_entropy.py
python3 find_pattern/alg.py
python3 Human_Correction/add_reference.py usr/find_frequency_pattern/filtered_alg.txt usr/find_frequency_pattern/source.txt
python3 Human_Correction/seperate_product.py [tagged_file]
python3 Human_Correction/word_decompose.py usr/human_correction/word.txt
python3 training_model/tag_product.py usr/find_frequency_pattern/source.txt usr/human_correction/product.txt usr/human_correction/base_word.txt
在kcws中,訓練過程較為繁瑣,按照下面python檔案即可濃縮步驟
./configure
構建 完成環境部署
python3 training_model/training_model.py usr/training_model/source_segement.txt usr/training_model/source_tag.txt usr/training_model/tag_vocab.txt usr/training_model/char_vec.txt
python3 recognition/product_recognition_test.py usr/recognition/hz_chinese_50.txt
從待測試文件中發現的產品名
```
保护套
工具
轮胎
家具
机械
平板电脑
电池芯
挂壁
棉花
婴儿手推车
苹果
宝马
海狮
干燥剂
水果
蘑菇
座椅
家电
学习桌
推车
绳子
电话
食品
糖果
婴儿车
```
可以看出發現的產品名還滿可靠的