Redditflow — поиск данных из любой временной шкалы, от прошлого до будущего, и питание ваших ML-конвейеров

Поиск данных для ваших ML-моделей может быть обременительным, и существует множество ресурсов, из которых вы можете найти данные для сбора. В зависимости от области данных и задачи, вы можете найти подходящие данные из ресурсов, некоторые из которых связаны с социальными сетями. В NFFlow мы гарантируем, что сбор данных и обучение ML-моделей станут для вас простыми, и наша задача — упростить процесс от сбора данных до создания ML-модели. Вы даже можете запланировать задания cron, чтобы собирать данные, которые предположительно появятся в будущем.

USECASE

Представьте, что вы хотите обучить модель на текстовых или графических данных, и вы не хотите проходить через весь этот жаргон на языке python, где вам нужно написать скребок и ML-модель. Именно здесь вам на помощь приходит redditflow, апи Reddit от NFFLOW!

Давайте разберем использование API, и как вы сможете извлечь из него пользу.

ТЕКСТОВЫЙ API

Текстовый api поможет вам соскрести данные с любой временной шкалы. Все, что вам нужно, — это файл конфигурации, в котором вы указываете интересующую вас тему и временной период, из которого вы хотите получить данные. Существует алгоритм классификатора с поддержкой ML, который поможет вам отфильтровать собранные данные. По желанию, если вы хотите получить на выходе из соскобленных данных обученную ML-модель, вы можете указать это в конфигурации.

Вот наглядный пример:

config = {
        "sort_by": "best",
         "subreddit_text_limit": 50,
        "total_limit": 200,
        "start_time": "27.03.2021 11:38:42",
        "end_time": "27.03.2022 11:38:42",
        "subreddit_search_term": "healthcare",
        "subreddit_object_type": "comment",
        "ml_pipeline": {""ml_pipeline":{"model_name":'distilbert-base-uncased','model_output_path':'healthcare_27.03.2021-27.03.2022_redditflow"}
    }
from redditflow import TextApi
TextApi(config) 
Войти в полноэкранный режим Выход из полноэкранного режима

Как и обещали, мы избавили вас от всего жаргона на питоне!

Мы загрузили несколько примеров моделей на хаб huggingface, используя redditflow. Посмотрите здесь!

API изображений

Допустим, вы хотите собрать все изображения по определенной теме за определенный период времени, например: собрать все изображения кошек с reddit за год. Вот как это можно сделать с помощью нескольких строк кода на python.

config = {
        "sort_by": "best",
        "subreddit_image_limit": 3,
        "total_limit": 10,
         "start_time": "13.11.2021 09:38:42",
         "end_time": "15.11.2021 11:38:42",
         "subreddit_search_term": "cats",
         "subreddit_object_type": "comment",
         "client_id": "$CLIENT_ID", # get client id for praw
         "client_secret": $CLIENT_SECRET, #get client secret for praw
         }

from redditflow import ImageApi
ImageApi(config)

Войти в полноэкранный режим Выйти из полноэкранного режима

Для запуска API требуется praw, python api для скраппинга reddit, поэтому от вас потребуется указать идентификатор и секрет клиента praw.

Вклад

Мы можем многое сделать для сообщества с помощью открытого исходного кода. Мы приветствуем любой вклад, который поможет нам продвинуться на шаг вперед в упрощении процесса изучения данных. Посмотрите https://github.com/nfflow/redditflow

Оцените статью
Procodings.ru
Добавить комментарий