Надо отметить, что написанию кода предшествует тщательная работа по изучению источника данных, его структуры, объёма данных, взаимных связей между единицами информации и т.д. Необходимо определить технологии, которые используются для работы сайта. Исходя из анализа собранной информации определяются подходы к написанию программы.
Обычно на один сайт средней сложности уходит от двух дней до недели в зависимости от текущей загруженности.
Основное время складывается из времени загрузки страницы (данных) с сервера. После этого сбор информации происходит практически мгновенно. То есть если вы уже знаете сайт-источник, то вы можете измерить среднее время загрузки и умножить на количество страниц, с которых надо собрать информацию. Так же на время могут влиять неустойчивость соединения, проблемы на сервере сайта-источника, блокировки и т.д.
Сбор информации из других источников (API сервисы, текстовые файлы, базы данных, табличные данные) происходит достаточно быстро и исчисляется минутами. Тут основное время занимает написание программы парсинга.
На самом деле его может и не быть, если структура вашего сайта и структура сайта-источника полностью совпадают. Однако такое бывает чрезвычайно редко. К тому же часто приходится собирать данные из разных источников, структуры которых также редко бывают идентичными.
Собранные данные необходимо привести к единому формату, определиться с общими для всех данных единицами измерений, исключить дубликаты и синонимы и, в конечном итоге, создать нужный вам вид каталога.
Иногда такой каталог бывает полезно оформить в виде отдельной небольшой программы, своеобразной базы данных, которая будет у вас всегда под рукой для быстрого поиска, а также для различного рода экспериментов со структурой данных. Она также пригодится в случае возникновения в будущем потребности быстро сравнить уже имеемые у вас данные с новыми источниками.
Когда ваша структура данных готова, она всё равно представляет собой абстрактный вид. То есть у каталога есть категории, у товаров есть атрибуты, но для того, чтобы импортировать всё это на сайт надо ещё создать драйвер под конкретную архитектуру базы данных сайта.
Другими словами, необходимо сделать своеобразную карту, руководствуясь которой программа будет раскладывать ваши данные (обычно это специально подготовленные таблицы Excel) в базу данных сайта.
Сам же процесс импорта в значительной мере зависит от Вашего хостинга, скорости его работы, различных установленных на нём ограничений, а также сложности структуры как каталога в целом, так и товара в частности. Чем больше будет загружаться товаров, тем процесс со временем будет становиться медленнее.
Например, процесс загрузки в пустой интернет-магазин на базе WordPress тысячи товаров с одной картинкой займёт не более часа даже на слабом хостинге. Однако если провести такую же операцию в то время, когда на сайте уже находится 150-200 тысяч товаров, то это может занять уже несколько часов и скорее всего потребует разбивки на более мелкие партии импорта.
Нет ограничений на то, каким способом лично вы будете «потреблять и усваивать» общедоступную информацию: глазами, ушами, пальцами или техническими приспособлениями, будете ли вы её запоминать и, если да, то как вы это будете делать. Никто не запрещает вам анализировать или структурировать информацию с помощью собственного мозга или, опять же, с помощью технических средств.
Вопрос законности начинается с момента использования. И тут уже всё зависит от самой информации, какие права на неё или связанную с ней продукцию установлены (авторские, торговые, лицензионные…), можно ли её распространять как свою или от своего имени, можно ли её продавать без лицензии или разрешения правообладателя и т.д. Поскольку тут возникает масса вопросов в каждой конкретной ситуации, то и по каждому определённому случаю лучше проконсультироваться у профильного юриста. От своего имени я настоятельно рекомендую это сделать во избежание будущих неприятностей.