database

Aurora Dataset

Перейти к проекту

preview

База знаний для ОС Аврора. Вы можете обучать свои модели, искать и находить ответ на свой вопрос. Pkl отлично подходит в качестве разработки проекта набора данных. Он позволяет экспортировать данные в различные форматы для применения их в приложениях.

Участие в Aurora Bot

Этот проект предоставляет данные для ответов на вопросы. Сервер синхронизируется раз в час, обновляя index OpenSearch, который обладает полнотекстовым поиском, и подбирает ответы для приложений проекта.

Dump

Вы можете найти заранее собранные данные в различные форматы в ветке dump:

Формат

Используется Telegram формат HTML в сокращенном виде: стиль HTML. Подходит для ботов Telegram и всех других парсеров. В демонстрационном сообщении собраны все используемые теги Telegram формата:

preview

Код этого сообщения выглядит следующим образом:

new ItemTemplate {
    t = "Демонстрационное_сообщение."
    i = "https://raw.githubusercontent.com/keygenqt/aurora-dataset/refs/heads/dump/data/affe3cbb-2142-4fce-88f9-dee606276754.png"
    b = """
        Ознакомиться с "HTML style" можно по ссылке:
        1. https://core.telegram.org/bots/api#html-style
        2. <a href="https://core.telegram.org/bots/api#html-style">HTML style</a>

        В этом сообщении демонстрируются теги, которые можно использовать:
        1. <b>bold</b>
        2. <i>italic</i>
        3. <u>underline</u>
        4. <s>strikethrough</s>
        5. <span class="tg-spoiler">spoiler</span>

        <blockquote>⌫
        Вот так выглядит цитата без expandable.
        </blockquote>
        ⌫
        <blockquote expandable>⌫
        Чтобы тексты не превращались в длиииииную строку, введен символ U+232B.⌫
        1. Символ за <code>&gt;</code> - будет удалена новая строка, идущая следом.
        2. В тексте - удалит новую строку и поставит пробел.
        3. Один в строке - строка будет удалена.
        </blockquote>
        ⌫
        Кодовая вставка:
        <pre><code class="language-cpp">⌫
        // Будьте аккуратны, добавляя символы, html может вас не понять. Символы должны быть экранированы!
        int main(int argc, char *argv[]) {
        return 0;
        }
        </code></pre>
        ⌫
        Короткие формы:
        1. <code>inline fixed-width code</code>.
        2. <pre>inline fixed-width code</pre>
        """
    a = authors.keygenqt
    ts = 1734498526
}
  • t - Уникальный вопрос по которому будет осуществлен поиск.
  • i - Изображение к посту, если такое имеется.
  • b - Данные которые будут отображены в ответе.
  • a - Автор ответа.
  • ts - Дата создания ответа в timestamp.

Scripts

Каталог scripts содержит скрипты Python, упрощающие работу с набором данных:

  • pkl.py - Установка и обновление pkl, генерация дампа нужного формата.
  • stats.py - Вывод статистики о наборе данных.
  • uts.py - Получение текущего timestamp и парсинг даты.
  • validate.py - Проверка валидности данных.

Любой скрипт можно вызвать из корня проекта. Например, вот так можно создать дамп в формате json:

scripts/pkl.py --dump json

Pkl IDEs