База знаний для ОС Аврора. Вы можете обучать свои модели, искать и находить ответ на свой вопрос. Pkl отлично подходит в качестве разработки проекта набора данных. Он позволяет экспортировать данные в различные форматы для применения их в приложениях.
Участие в Aurora Bot
Этот проект предоставляет данные для ответов на вопросы. Сервер синхронизируется раз в час, обновляя index OpenSearch, который обладает полнотекстовым поиском, и подбирает ответы для приложений проекта.
Dump
Вы можете найти заранее собранные данные в различные форматы в ветке dump
:
- dataset-dump.json
- dataset-dump.jsonnet
- dataset-dump.pcf
- dataset-dump.plist
- dataset-dump.xml
- dataset-dump.yaml
Формат
Используется Telegram формат HTML в сокращенном виде: стиль HTML. Подходит для ботов Telegram и всех других парсеров. В демонстрационном сообщении собраны все используемые теги Telegram формата:
Код этого сообщения выглядит следующим образом:
new ItemTemplate {
t = "Демонстрационное_сообщение."
i = "https://raw.githubusercontent.com/keygenqt/aurora-dataset/refs/heads/dump/data/affe3cbb-2142-4fce-88f9-dee606276754.png"
b = """
Ознакомиться с "HTML style" можно по ссылке:
1. https://core.telegram.org/bots/api#html-style
2. <a href="https://core.telegram.org/bots/api#html-style">HTML style</a>
В этом сообщении демонстрируются теги, которые можно использовать:
1. <b>bold</b>
2. <i>italic</i>
3. <u>underline</u>
4. <s>strikethrough</s>
5. <span class="tg-spoiler">spoiler</span>
<blockquote>⌫
Вот так выглядит цитата без expandable.
</blockquote>
⌫
<blockquote expandable>⌫
Чтобы тексты не превращались в длиииииную строку, введен символ U+232B.⌫
1. Символ за <code>></code> - будет удалена новая строка, идущая следом.
2. В тексте - удалит новую строку и поставит пробел.
3. Один в строке - строка будет удалена.
</blockquote>
⌫
Кодовая вставка:
<pre><code class="language-cpp">⌫
// Будьте аккуратны, добавляя символы, html может вас не понять. Символы должны быть экранированы!
int main(int argc, char *argv[]) {
return 0;
}
</code></pre>
⌫
Короткие формы:
1. <code>inline fixed-width code</code>.
2. <pre>inline fixed-width code</pre>
"""
a = authors.keygenqt
ts = 1734498526
}
t
- Уникальный вопрос по которому будет осуществлен поиск.i
- Изображение к посту, если такое имеется.b
- Данные которые будут отображены в ответе.a
- Автор ответа.ts
- Дата создания ответа в timestamp.
Scripts
Каталог scripts
содержит скрипты Python, упрощающие работу с набором данных:
pkl.py
- Установка и обновление pkl, генерация дампа нужного формата.stats.py
- Вывод статистики о наборе данных.uts.py
- Получение текущего timestamp и парсинг даты.validate.py
- Проверка валидности данных.
Любой скрипт можно вызвать из корня проекта. Например, вот так можно создать дамп в формате json:
scripts/pkl.py --dump json