У индустрии ИИ есть проблема, о которой она редко говорит открыто: конвейер данных иссякает. Большая часть открытого интернета уже была просканирована, а оставшаяся все чаще оказывается заблокированной за дорогими API-соглашениями, которые по карману только крупнейшим игрокам. Инфраструктура Perceptron AI data пытается полностью изменить эту схему — не за счет переговоров о более выгодных сделках с хранителями данных, а за счет полного обхода их как таковых.
Summary
Ключевые выводы
- Perceptron собирает общедоступные веб-данные через незадействованную пропускную способность потребительских устройств, используя сеть примерно из 800 000 узлов более чем в 150 странах.
- Собранные данные проходят проверку качества централизованными моделями ИИ перед передачей корпоративным клиентам.
- Участники зарабатывают баллы, конвертируемые в нативные крипто-токены, что создает общую экономическую мотивацию.
- Perceptron запустила Фонд AI Data объемом $10 миллионов, предлагающий разработчикам до пяти недель инфраструктурной поддержки и 5 ТБ реальных данных бесплатно.
- Стартап приобрел компанию по верификации транзакций и платежей для автоматизации проверки данных и планирует платформу Data Questing для генерации уникальных наборов данных.
Perceptron решает проблему дефицита обучающих данных для ИИ с помощью незадействованной пропускной способности потребителей
По сообщениям, OpenAI платит от $60 миллионов до $100 миллионов в год таким платформам, как Reddit и Twitter, только за доступ к данным через их API. Для нескольких хорошо капитализированных лабораторий на вершине иерархии ИИ эти расходы приемлемы. Для всех остальных это стена.
«Многие новые проекты ИИ не имеют бюджетов, чтобы тратить от $60 миллионов до $100 миллионов только ради доступа к данным», — сказал Питер Энтони, сооснователь и генеральный директор Perceptron. «Если вы создадите лучшую модель в мире, она будет практически бесполезна, если у нее нет доступа к качественным данным. Вы можете быть самым умным ребенком в школе, но если вы не можете получить доступ ни к каким книгам, у вас на самом деле не так много информации, которую можно представить».
Именно в этот структурный разрыв и стремится встроиться Perceptron. Вместо того чтобы конкурировать на тех же условиях, что и Google или OpenAI, платформа использует принципиально иной подход — такой, который рассматривает обычных интернет-пользователей как саму инфраструктуру.
Узкое место обучающих данных в индустрии ИИ
Дефицит данных — это не проблема будущего. Он уже определяет, какие проекты ИИ создаются, а какие буксуют. Поскольку большая часть доступного для обхода открытого веб-контента уже собрана, оставшаяся высококачественная информация активно монетизируется платформами, которые ее контролируют. Это превратило доступ к данным в конкурентный ров, а не просто ресурс.
Идея Энтони была проста: асимметрия данных существует не потому, что качественная информация исчезла, а потому, что механизмы ее сбора контролируются небольшим числом компаний. Децентрализованные наборы данных для ИИ, собираемые через распределенные пользовательские узлы, а не централизованные краулеры, предлагают структурный обходной путь.
Как Perceptron переиспользует повседневные устройства для сбора данных
Каждый раз, когда кто-то просматривает интернет, его устройство генерирует локализованные географические сигналы — другие результаты поиска, иное расположение контента, иные реакции платформ — которые различаются в зависимости от того, где в мире находится пользователь. Perceptron фиксирует эти различия.
Пользователи запускают расширение браузера в Chrome или приложение на устройствах Android. Эти конечные установки не получают доступа к личным файлам или приватной телеметрии. Вместо этого они предоставляют то, что Энтони называет «разными точками обзора» на открытый веб — локализованные перспективы, которые можно объединить в целостный, географически разнообразный набор данных. Клиенту, которому нужны, например, посты в соцсетях о здравоохранении США, можно предоставить данные через скоординированные запросы по глобальной сетке узлов Perceptron, полностью через стандартный публичный веб-доступ.
Результатом является сеть, охватывающая более 150 стран и примерно 800 000 узлов-участников — построенная не на базе корпоративных серверов, а на незадействованной пропускной способности обычных интернет-пользователей.
Правовая и техническая рамка обеспечивает качество и соответствие требованиям
Поскольку все данные, собираемые Perceptron, уже общедоступны через любой стандартный веб-браузер, маршрутизация сбора через индивидуальные пользовательские узлы юридически позволяет обойти коммерческие API-платные стены. Платформа не извлекает проприетарные данные — она собирает информацию, которую любой человек технически мог бы получить самостоятельно, только в масштабах и с географическим распределением.
Обход дорогостоящих API-платных стен через децентрализованный сбор данных
Конкурентное преимущество — в стоимости. Распределяя сбор по сотням тысяч потребительских устройств вместо оплаты доступа к API операторам платформ, Perceptron может подорвать ценовые структуры, которые сейчас благоприятствуют только крупнейшим компаниям ИИ. «Делая это, мы можем значительно снизить стоимость, которую сейчас взимает множество крупных централизованных компаний, таких как Google», — объяснил Энтони.
Это важно не только из-за цены. Сама архитектура меняет баланс сил. Когда сбор данных больше не зависит от соглашений с несколькими хранителями платформ, вся структура затрат на обучение ИИ становится более конкурентной — и более доступной для независимых разработчиков, которые сейчас не могут себе позволить участие в игре.
Централизованные модели ИИ и приобретенные технологии для проверки данных
Необработанные данные, полученные через пользовательские узлы, передаются обратно на централизованный сервер, где специализированные модели ИИ очищают и проверяют информацию перед ее передачей клиентам. Не каждый узел автоматически получает вознаграждение — процесс контроля качества отфильтровывает вводы, не соответствующие целевым показателям, до того, как будет произведена какая-либо компенсация.
Чтобы еще больше автоматизировать эту проверку, Perceptron приобрела компанию, специализирующуюся на программном обеспечении для верификации транзакций и платежей. Это приобретение призвано привнести структурную строгость в конвейер аутентификации данных, снизить зависимость от ручной проверки и повысить надежность того, что поставляется корпоративным покупателям.
Модель стимулов и финансирование для поддержки роста экосистемы
Сеть работает только в том случае, если люди участвуют. Ответ Perceptron — стимулирующий цикл на основе токенов: участники зарабатывают баллы за свою пассивную подключенность, которые планируется конвертировать в нативные крипто-токены по мере того, как платформа генерирует выручку. Энтони описал этот механизм как цикл разделяемой ценности: «каждый раз, когда компанией генерируется выручка, токены будут возвращаться в экосистему».
Вознаграждения участникам в виде баллов, конвертируемых в нативные крипто-токены
Модель переворачивает с ног на голову эксплуататорскую динамику, которую критиковал Энтони. Вместо того чтобы корпорации присваивали ценность пользовательских данных без отдачи, участники сети Perceptron получают прямую долю в экономическом результате, который становится возможным благодаря их пропускной способности. Также планируется механизм выкупа токенов, добавляющий еще один уровень устойчивости экосистемы.
Запуск Фонда AI Data объемом $10 миллионов для разработчиков
Помимо стороны участников, Perceptron направила капитал на формирование стороны спроса. Фонд AI Data объемом $10 миллионов нацелен на независимых разработчиков ИИ и ранние проекты, у которых нет ресурсов для конкуренции с хорошо финансируемыми лабораториями. Отобранные инженерные команды получают пять недель выделенной поддержки инфраструктуры данных и до 5 ТБ реальных данных бесплатно.
Стратегическая логика проста. Финансируя команды на ранней стадии, Perceptron позиционирует себя как поставщика данных по умолчанию для проектов по мере их масштабирования. «Цель — поддерживать проекты по мере их роста и увеличения потребностей в данных. Мы можем стать одним из их основных поставщиков — это одновременно инвестиция в более широкую экосистему и способ для нас построить стабильную, долгосрочную выручку», — сказал Энтони.
Платформа уже активно обслуживает коммерческих клиентов. Perceptron предоставляет наборы изображений платформам генерации текста в видео, включая Everlyn AI, и расширилась в область анализа настроений — отслеживает публичные дискуссии в Twitter, на YouTube и на рынках цифровых активов, чтобы помочь крипто-компаниям и биржам создавать инструменты раннего предупреждения о движениях цен.
Взгляд в будущее: расширение услуг по данным и бизнес-аналитике
Текущие продукты в области данных — лишь часть долгосрочных амбиций. Энтони обозначил переход от поставки статичных наборов данных к тому, что он описывает как распределенную бизнес-аналитику — постоянно обновляемую, глубинную аналитику для корпоративных клиентов в таких секторах, как электронная коммерция и трейдинг.
Планы по созданию платформы Data Questing для генерации уникальных наборов данных
Разрабатывается структурированная платформа Data Questing, призванная превращать активные усилия человеческих участников в уникальные обучающие входные данные — наборы данных, которые невозможно воспроизвести с помощью централизованного скрейпинга. «Мы стремимся эффективно создавать наборы данных и формировать датасеты, которые в настоящее время недоступны через централизованные процессы», — сказал Энтони.
Переход к распределенной бизнес-аналитике
Переход к бизнес-аналитике отражает более широкую критику того, как данные используются сейчас. «Традиционные наборы данных статичны, они собираются один раз и быстро устаревают», — объяснил Энтони. «Один единственный сервер, пытающийся отслеживать всех этих разных пользователей, не может собрать значимую аналитику в таком масштабе. Нам нужен переход к распределенной бизнес-аналитике».
Этот поворот — от продажи наборов данных к предоставлению постоянной аналитики — будет означать значительное расширение адресуемого рынка Perceptron. Он также повышает ставки в вопросе, сможет ли модель стимулов на основе токенов и сеть узлов поддерживать тот уровень непрерывного, высококачественного потока данных, который потребуют клиенты по бизнес-аналитике. Создаваемая сегодня инфраструктура — это фундамент. Сможет ли он выдержать вес этой долгосрочной визии — вопрос, на который предстоит ответить следующему этапу роста.
FAQ
Как Perceptron собирает обучающие данные для ИИ?
Perceptron использует незадействованную пропускную способность повседневных потребительских устройств с установленным расширением браузера или приложением для сбора общедоступных веб-данных, фиксируя локализованные географические перспективы от узлов более чем в 150 странах.
Как Perceptron обеспечивает качество собираемых данных?
Собранные пакеты данных отправляются на централизованные серверы, где модели ИИ очищают и проверяют данные на качество перед их поставкой клиентам. Компания также приобрела фирму по программному обеспечению для верификации транзакций и платежей, чтобы еще больше автоматизировать этот процесс проверки.
Почему участники присоединяются к сети Perceptron?
Участники зарабатывают баллы в зависимости от своего участия и качества вклада их сети. Эти баллы планируется конвертировать в нативные крипто-токены, создавая общую экономическую мотивацию, связанную с генерацией выручки платформой.
Что такое Фонд AI Data, запущенный Perceptron?
Это фонд объемом $10 миллионов, поддерживающий независимых разработчиков ИИ до пяти недель выделенной помощи по инфраструктуре данных и до 5 ТБ реальных данных бесплатно, предназначенный для ускорения разработки моделей ИИ на ранней стадии.
{«@context»:»https://schema.org»,»@type»:»FAQPage»,»mainEntity»:[{«@type»:»Question»,»name»:»Как Perceptron собирает обучающие данные для ИИ?»,»acceptedAnswer»:{«@type»:»Answer»,»text»:»Perceptron использует незадействованную пропускную способность повседневных потребительских устройств с установленным расширением браузера или приложением для сбора общедоступных веб-данных, фиксируя локализованные географические перспективы от узлов более чем в 150 странах.»}},{«@type»:»Question»,»name»:»Как Perceptron обеспечивает качество собираемых данных?»,»acceptedAnswer»:{«@type»:»Answer»,»text»:»Собранные пакеты данных отправляются на централизованные серверы, где модели ИИ очищают и проверяют данные на качество перед их поставкой клиентам. Компания также приобрела фирму по программному обеспечению для верификации транзакций и платежей, чтобы еще больше автоматизировать этот процесс проверки.»}},{«@type»:»Question»,»name»:»Почему участники присоединяются к сети Perceptron?»,»acceptedAnswer»:{«@type»:»Answer»,»text»:»Участники зарабатывают баллы в зависимости от своего участия и качества вклада их сети. Эти баллы планируется конвертировать в нативные крипто-токены, создавая общую экономическую мотивацию, связанную с генерацией выручки платформой.»}},{«@type»:»Question»,»name»:»Что такое Фонд AI Data, запущенный Perceptron?»,»acceptedAnswer»:{«@type»:»Answer»,»text»:»Это фонд объемом $10 миллионов, поддерживающий независимых разработчиков ИИ до пяти недель выделенной помощи по инфраструктуре данных и до 5 ТБ реальных данных бесплатно, предназначенный для ускорения разработки моделей ИИ на ранней стадии.»}}]}
Статья подготовлена при содействии искусственного интеллекта и проверена редакционной командой.

