Структура повышает семена в размере 4,1 млн. Долл. США для превращения неструктурированных веб-данных в готовые к предприятиям наборы данных

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Бруклинский стартап стремится к одной из самых известных болевых точек в мире искусственного интеллекта и аналитики данных: кропотливый процесс подготовки данных.

Структура появилась сегодня из Stealth Mode, объявив о своем публичном запуске наряду с 4,1 млн. Долл. США в виде семян, возглавляемое Bain Capital Ventures, с участием 8VC, интегральных предприятий и стратегических инвесторов -ангелов.

Платформа компании использует собственную модель визуального языка под названием Dora для автоматизации сбора, очистки и структурирования данных — процесс, который обычно потребляет до 80% времени ученых -ученых, согласно промышленным исследованиям.

«Объем информации, доступной сегодня, абсолютно взорвался»,-сказал Ронак Ганди, соучредитель Strectify, в эксклюзивном интервью VentureBeat. «Мы достигли основной точки перегиба в доступности данных, что является и благословением, и проклятием. Хотя у нас есть беспрецедентный доступ к информации, он остается в значительной степени недоступной, потому что так сложно преобразовать в правильный формат для принятия значимых бизнес -решений».

Подход Structify отражает растущее внимание в отрасли на решении того, что эксперты по данным называют «узким местом подготовки данных». Исследование Gartner показывает, что неадекватная подготовка данных остается одним из основных препятствий для успешной реализации ИИ, причем у четырех из пяти предприятий не хватает оснований данных, необходимых для полного использования генеративного ИИ.

Как трансформация данных с двигателем AI открывает скрытую бизнес-аналитику в масштабе

По своей сути, Structify позволяет пользователям создавать пользовательские наборы данных, указав схему данных, выбирая источники и развертывая агенты ИИ для извлечения этих данных. Платформа может обрабатывать все, от заявок SEC и профилей LinkedIn до новостных статей и специализированных отраслевых документов.

По словам Ганди, то, что разделяет их, так это их собственная модель Дора, которая ориентируется на Интернет, как человек.

«Это супер высококачественное. Он перемещается и взаимодействует с такими же, как и человек»,-объяснил Ганди. «Итак, мы говорим о качестве человека — это первый центр принципов, стоящих за Дорой. Он читает в Интернете так, как человек».

Этот подход позволяет Structify для поддержки бесплатного уровня, который, по мнению Ганди, поможет демократизировать доступ к структурированным данным.

«Способ, которым вы думаете о данных сейчас, это действительно драгоценный объект», — сказал Ганди. «Это действительно драгоценное, что вы тратите так много времени на то, чтобы накапливаться, находить и бороться вокруг, и когда она у вас есть, вы говорите:« О, если кто -то должен был его удалить, я бы плакал ».

Структурное видение состоит в том, чтобы «коммодитизировать данные» — сделать его чем -то, что можно легко воссоздать, если он потерян.

От финансов до строительства: как предприятия развертывают пользовательские наборы данных для решения специфических для отрасли задач

Компания уже видела принятие в нескольких секторах. Финансовые команды используют его для извлечения информации из датчиков, строительные компании превращают сложные геотехнические документы в читаемые столы, а отделы продаж собирают организационные схемы в реальном времени для своих счетов.

Слэйтер Стич, партнер Bain Capital Ventures, подчеркнул эту универсальность в объявлении о финансировании: «У каждой компании, с которой я когда -либо работал, есть несколько источников данных, которые являются чрезвычайно важными, и с огромной болью для работы, будь то фигуры, похороненные в PDF, разбросаны по сотням веб -страниц, скрытыми за API SOAPS Enterprise и т. Д.»

Разнообразие ранней клиентской базы Structify отражает универсальный характер проблем подготовки данных. Согласно исследованию TechTarget, подготовка данных обычно включает в себя серию трудоемких шагов: сбор, обнаружение, профилирование, очищение, структурирование, преобразование и валидация-все до того, как может начаться какой-либо фактический анализ.

Почему человеческая экспертиза остается решающей для точности ИИ: Inside Structify’s «четырехкратная проверка».

Ключевым отличием для структуры является его «четырехкратный процесс проверки», который сочетает в себе ИИ с человеческим надзором. Этот подход рассматривает критическую проблему в разработке ИИ: обеспечение точности.

«Всякий раз, когда пользователь видит что -то подозрительное, или мы идентифицируем некоторые данные как потенциально подозрительные, мы можем отправить их эксперту в этом конкретном случае использования», — пояснил Ганди. «Этот эксперт может действовать так же, как (Дора), перейти к правильной части информации, извлечь ее, сохранить, а затем проверить, правильно ли это».

Этот процесс не только исправляет данные, но и создает примеры обучения, которые со временем улучшают производительность модели, особенно в специализированных областях, таких как строительные или фармацевтические исследования.

«Эти вещи такие грязные», — отметил Ганди. «Я никогда не думал в своей жизни, у меня было бы четкое понимание геологии. Но мы есть, и это, я думаю, огромная сила — способность учиться у этих экспертов и поместить ее прямо в Дору».

Балансирование мощного извлечения данных с этическими гарантиями в эпоху ИИ

По мере того, как инструменты извлечения данных становятся более мощными, проблемы конфиденциальности неизбежно возникают. Structify внедрила гарантии для решения этих вопросов.

«Мы не делаем никакой аутентификации, ничего, что требовало входа в систему, все, что требует от вас, чтобы отступить какое -то чувство информации — наш агент не делает этого, потому что это проблема конфиденциальности», — сказал Ганди.

Компания также отдает приоритеты прозрачности, предоставляя информацию о прямом поставке. «Если вы заинтересованы в том, чтобы узнать больше о конкретной части информации, вы обращаетесь непосредственно к этому контенту и видите его, в отличие от своего рода устаревших поставщиков, где это черный ящик».

Внутри конкурентной ландшафта инструментов данных ИИ, как технические гиганты, гоняясь за кризис подготовки данных

Structify входит в конкурентную ландшафт, который включает как устоявшихся игроков, так и других стартапов, занимающихся различными аспектами задачи подготовки данных. Такие компании, как Alteryx, Informatica, Microsoft и Tableau, все предлагают возможности подготовки данных, в то время как несколько специалистов были приобретены в последние годы.

По словам генерального директора Алекса Рейхенбаха, что дифференцирует структурирование, так это сочетание скорости и точности. Недавний пост LinkedIn от Reichenbach утверждал, что они ускорили своего агента «10x при сокращении стоимости ~ 16x» за счет оптимизации модели и улучшения инфраструктуры.

Запуск компании поступил на фоне растущего интереса к автоматизации данных на основе AI. Согласно отчету TechTarget, автоматизация подготовки данных «часто упоминается как одна из основных областей инвестиций для групп данных и аналитики», причем дополненные возможности подготовки данных становятся все более важными.

Как разочаровывающий опыт подготовки данных вдохновил двух друзей революционизировать отрасль

Для Ганди Структура решает проблемы, которые он столкнулся с первыми руками в предыдущих ролях.

«Главная вещь в основе истории структуры — это то, что это как личная, так и профессиональная вещь», — вспоминает Ганди. «Я говорил (Алекс) о том времени, когда я работал в качестве аналитика данных и занимался операциями и консалтингом, подготовив эти действительно нишевые наборы данных для клиентов — списки всех влиятельных лиц фитнеса и их следующие показатели, списки компаний и какие работы, которые они публикуют, музеи на восточном побережье… я тратил много времени, выполняя их, курируя их, сбрасывая данные, все это. Все это. Все это. Все это. Все это. Все это. Все это.

Неспособность быстро итерации от идеи к набору данных была особенно разочарована. «Что меня получило, так это то, что вы не могли повторить и как бы быстро перейти от идеи к набору данных», — сказал Ганди.

Его соучредитель, Алекс Рейхенбах, столкнулся с аналогичными проблемами, работая в инвестиционном банке, где проблемы с качеством данных препятствовали усилиям по созданию моделей в дополнение к структурированным наборам данных.

Как структура планирует использовать свое начальное финансирование в размере 4,1 млн. Долл. США для преобразования подготовки корпоративных данных

С новым финансированием структура планирует расширить свою техническую команду и зарекомендовать себя как «инструмент для данных в разных отраслях». В настоящее время компания предлагает как бесплатные, так и платные уровни, с предприятиями для тех, кто нуждается в расширенных функциях, таких как локальное развертывание или высокоспециализированное извлечение данных.

Поскольку все больше компаний инвестируют в инициативы искусственного интеллекта, важность высококачественных структурированных данных будет только увеличиваться. В недавнем отчете MIT Technology Reviews Insights показано, что четыре из пяти предприятий не готовы использовать генеративный ИИ из -за плохих фондов данных.

Для Ганди и команды Structify, решение этой фундаментальной задачи может раскрыть значительную ценность в разных отраслях.

«Тот факт, что вы даже можете представить себе мир, который создает наборы данных, является итеративным, является как разум, ошеломляющий для многих наших пользователей», — сказал Ганди. «В конце концов, подача заключается в том, чтобы иметь этот контроль и настраиваемость».



Источник

Рекомендуем

Оставить комментарий