Формат данных
В каком формате лучше подавать информацию?
Ну давайте начнем с того, что есть строго определенные форматы, в которых ее можно подавать, и, соответственно, во всех остальных ее подавать нельзя.
Давайте разберем, в каких форматах ее можно подавать.
Документы
Во-первых, это текстовые файлы, .txt, .doc, т.е. Word-овские документы, и .pdf, т.е. тексты в привычных нам форматах — это, в принципе, наиболее универсальный способ загрузки информации.
Сразу забегая немного вперед, скажу, что лучше всего загружать информацию именно в формате .txt, потому что нейросеть у нас читает чистый текст. То есть какой бы файл вы не загрузили, будь то Word, или PDF-документ, или HTML-страница, он в любом случае предварительно очистит все форматирование и оставит для себя только текст.
Чтобы ускорить работу вашего Нейробота, чтобы увеличить его эффективность и точность понимания информации, всегда лучше загружать ее в текстовом формате, т.е. .TXT.
Но, к примеру, если ваша информация уже подготовлена в документах Word и PDF, то лучше всего, если документ будет структурирован, с четкими заголовками под заголовками списками,
То есть, чтобы он имел информационную иерархию, а не кашу. Чтобы бот лучше понимал, что к чему относится. Чтобы документ был без избыточного форматирования. То есть, опять же, без декоративных шрифтов, каких-то цветов, курсивов и так далее. В идеале, если у вас вордовский документ, его лучше просто взять и весь целиком очистить от форматирования. И чтобы там просто остался черный текст на белом. Вот это было бы в идеале.
Ну и в этом документе также все должно быть разделено по логическим блокам, то есть что к чему относится, с оглавлением, с заголовками, как в книге или учебнике. Вот это было бы лучше всего. Особенности форматов. Ну, во-первых, как я уже сказал, текст-э — это самый лучший вариант для обучения. Простой текст без форматирования лучше всего подходит.
Значит, лучше всего все ваши данные заранее готовить именно в формате .txt и загружать в формате .txt. Так бот будет работать быстрее и точнее. .doc, то есть, ну, это Wordовские документы, можно использовать, если нет информации в других форматах. И, как я уже сказал, документ лучше очистить от форматирования, превратив его в черный текст на белом фоне. .pdf также можно использовать, но только если текст распознан. То есть, когда у нас в .pdf не фотографии идут как бы одна за другой, когда мы не можем выделить текст,
А именно вот распознанный документ, и мы можем скопировать текст оттуда. Вот такие документы годятся, да.
HTML-страницы
Если информация уже опубликована на сайте, мы ее можем использовать для обучения. В нейроботе есть такая функция. Значит, мы загружаем целиком сайт. Но опять же я хочу напомнить, что сайт он у нас в любом случае переводит именно в текстовый формат. То есть все скачанные страницы он у нас переводит в текст, который у нас идет вот просто сплошняком, как это лучше всего для обучения.
Ссылки на страницы или файлы Опять же, если нужная информация есть на сайте, но нам не нужно скачивать весь сайт целиком, мы можем указывать отдельные ссылки на сайте.
Если у нас есть нужная информация в виде каких-то документов или отдельных ссылок, и нам не нужно скачивать весь сайт, мы можем добавлять отдельные ссылки, а при этом указывая формат файла, который нам нужно загрузить. Для чего это нужно? Для того, чтобы у нас ссылка может быть не только на страницу, у нас может быть какой-то загруженный документ, PDF или еще что-то, который, к примеру, периодически обновляется, и нам его нужно скачивать, чтобы дообучать нашего нейробота. То есть для этого мы указываем нужный формат.
JSON
Есть еще такой классный формат как JSON. Не все может быть его знают, но этот формат стал универсальным в среде разработки, в среде общения программ между собой посредством API.
JSON это JavaScript Object Notation, то есть это у нас как бы структурный формат такой, который позволяет сохранять не просто сплошняком текст, а позволяет сохранять взаимодействие между элементами внутри нашей информации. Это очень полезно, когда нам нужно обучить бота категоризированной информации, ну то есть, например, когда у нас есть много разных объектов, таких как товары, собственно, таких как услуги.
У них есть категории, какие-то описания, параметры и так далее. Чтобы сохранить цельность этой информационной структуры, существует формат JSON. По своему опыту могу сказать, что нейробот хорошо воспринимает JSON. И в случаях, когда у нас есть структурированная информация, можно спокойно его загружать, и бот будет обрабатывать это корректно. Бот работает с JSON хорошо. Вот пример простой структуры JSON, которая представляет из себя объект с форматом вопрос-ответ.
То есть здесь у нас в параметре указан вопрос, в другом параметре у нас указан ответ, есть название параметра, есть содержимое ответа. То есть пара ключей значения, как в классических массивах или объектах в программировании, у нас здесь сохраняется. Этот формат нейросети понимают хорошо, потому что он является чем-то гибридным между человеческим языком и структурированными данными.
Таблицы
Таблицы в формате .xls, .xlsx (excel) и .csv нейробот пока не читает, потому, что OpenAI не принимает эти форматы для обучения ассистентов, но мы можем предварительно преобразовать нужную таблицу в текстовый формат и обучить нейробота на этом файле.
Вот, допустим, у нас есть простенькая таблица. Для того, чтобы сохранить ее в виде файла, мы должны нажать «Сохранить как». И в качестве типа файла должны указать текст. Вот формат текста. Можно Macintosh, DOS — это уже не важно. Сохранили нашу таблицу в виде текста и получили такой текст сплошняком, который нейробот адекватно воспримет и сможет на нем обучиться.
То есть мы таблицу сначала перегоняем в .txt формат, а потом уже добавляем .txt формат в нейробота. Таким образом мы обучаем нейробота на таблицах.
Независимо от типа данных, от формата файлов, которые мы загружаем, наши данные должны быть точными, чистыми и структурированными, точными, то есть имеется ввиду, что не должно быть лишней информации, какой-то воды, чистыми, имеется ввиду, что минимум форматирования, минимум какой-то разметки, лишних символов и так далее, то есть не работает, в любом случае, любой формат файлов перегоняет в текст, он работает с текстом.
Мы можем заранее сделать эту работу, чтобы облегчить ему жизнь, собственно, и ускорить его время работы. И также данные должны быть структурированными. То есть заголовок по тематикам разделить и так далее. Сейчас об этом мы поговорим чуть дальше. В общем, в совокупности точность, частота и структурирование повысит точность, собственно, работы, не работа, и скорость его работы.
на основе загруженных данных
нейробота под ключ