пятница, 23 мая 2008 г.

Итоги давно прошедшего года.

Давно не писал, не правда ли? Искал свою "белую" нишу, да. Ещё и офисная работа преизрядно отвлекает, хотя и занимаюсь ей всё меньше. Так вот незаметно год и пролетел.

Одну нишу, где понемногу нынче специализируюсь, назову: web-scraping. В сети очень много сайтов, содержащих самые разные любопытные списки. Скажем, желтые страницы. Обычно подобные сайты предлагают свои базы по совершенно несуразным ценам. К примеру, один бельгийский сайт желтых страниц предлагает свои данные по доллару за запись. А от мне подобных, защищается javascript-шифровкой данных на странице. Ну, то есть защищаться пытается. По крайней мере от меня -- безуспешно.

Итого, нынче я являюсь обладателем нескольких небесполезных баз данных: от таких, что в сети в готовом виде при желании найти можно (список всех стран, регионов и городов, с координатами, населением и прочими параметрами), через те, что найти уже не так просто (американские, канадские, российские и прочие почтовые коды, скажем) и до таких, что бесплатно показываются на "желтых страницах", а целиком только за деньги раздаются (скажем, список всех двух с лишним сотен тысяч дантистов америки). Над пополнением базы работает группа мощных выделенных серверов в России, Германии и Канаде (да, надо будет ещё и в Штатах докупить), а я работаю над оптимизацией кода, стараясь чтобы и все процессоры тех серверов были заняты по полной и гигабитные каналы без дела не простаивали.

Если же кого интересуют те данные, что уже где-то вывешены в публичный доступ (кстати, именно поэтому мой бизнес, в целом, законен), но в мои базы ещё не попали -- мне совсем несложно (а заказчику соответственно недорого) добавить в список закачек ещё одну.