项目作者: pacifikus

项目描述 :
Fake jobs posting predictions task
高级语言: Jupyter Notebook
项目地址: git://github.com/pacifikus/rucode_fake_jobs.git
创建时间: 2020-10-08T19:20:58Z
项目社区:https://github.com/pacifikus/rucode_fake_jobs

开源协议:

下载


rucode logo

RuCode Fake Job Postings

https://www.kaggle.com/c/rucode-fake-job-postings

Задача выявления фейковых объявлений о приеме на работу

  • Данные представляют собой .csv таблицы с текстовыми и категориальными полями.
  • В данных присутствуют пропуски, которые могут быть обусловлены как тем, что соответствующая информация в объявлении о приеме на работу отсутствовала, так и тем, что объявление неверно распарсилось алгоритмом.
  • Данные в задаче сильно несбалансированы: среди объявлений фейковых очень мало. Метрика, используемая для оценивания: F1 score.

Состав репозитория

  • test_data.csv - тестовый датасет
  • train_data.csv - тренировочный датасет
  • rucode_distilbert.ipynb - ноутбук с решением
  • Rucode fake jobs.pdf - презентация с описанием решения