本發明公開了一種自動化數據挖掘預處理方法,其特征在于,包括:建立數據庫和預處理規則庫,在該數據庫中新建數據表且標準化命名,將待預處理數據進行抽樣后導入新建數據表中,同時對抽樣后的預處理數據的每一個字段的值進行數理統計;提取數據表的關鍵字 A、B 和 C,在預處理規則庫中查詢是否存在這些關鍵字,如果不存在則將數據表的關鍵字和所有字段添加到預處理規則庫中,然后采用分箱法和數據平滑法對所有預處理數據進行處理,以生成新的規則,并將其添加到原有規則庫中。本發明通過對預處理結果進行評分和反饋,調整字段映射函數,提高預處理的質量。
未應用
掃碼關注,查看更多科技成果