项目作者: pacifikus
项目描述 :
Fake jobs posting predictions task
高级语言: Jupyter Notebook
项目地址: git://github.com/pacifikus/rucode_fake_jobs.git
RuCode Fake Job Postings
https://www.kaggle.com/c/rucode-fake-job-postings
Задача выявления фейковых объявлений о приеме на работу
- Данные представляют собой .csv таблицы с текстовыми и категориальными полями.
- В данных присутствуют пропуски, которые могут быть обусловлены как тем, что соответствующая информация в объявлении о приеме на работу отсутствовала, так и тем, что объявление неверно распарсилось алгоритмом.
- Данные в задаче сильно несбалансированы: среди объявлений фейковых очень мало. Метрика, используемая для оценивания: F1 score.
Состав репозитория
- test_data.csv - тестовый датасет
- train_data.csv - тренировочный датасет
- rucode_distilbert.ipynb - ноутбук с решением
- Rucode fake jobs.pdf - презентация с описанием решения