Appearance
Настройка GitHub
- Зарегистрироваться на
https://github.com/с тем же почтовым ящиком - Создать новый репозиторий (заполнить имя, краткое описание, выбрать: приватный или публичный будет репозиторий, нажать создать проект)
- В локальной папке создать файл
README.mdи добавить его в гит:
sh
git add README.md
git commit -m "комментарий"
git branch -M main
git remote add origin https://github.com/вашеИмя/НазваниеПроекта.git
git push -u origin main- Проверить на
https://github.com/вашеИмя/НазваниеПроекта.gitналичие вашего проекта
Основные отличия Git от других систем контроля версий
Git является бесплатным программным обеспечением с открытым исходным кодом.
Вы можете использовать его без каких-либо ограничений по лицензии как для личных, так и для коммерческих проектов.
В отношении хранения данных, Git сам по себе не ограничивает объем данных, который вы можете хранить в репозитории. Однако практические ограничения определяются производительностью и возможностями используемых оборудования и файловых систем. Репозитории с очень большим количеством файлов или с огромными файлами могут работать медленнее, особенно при выполнении операций, требующих пересчета больших объемов данных (например, слияние веток).
Хранит полную историю и информацию о состоянии файлов на момент каждого коммита, что позволяет легко восстанавливать предыдущие версии и понимать историю проекта.
Бесплатно GitHub позволяет хранить репозитории до 500 MB каждый, хотя рекомендуется, чтобы репозитории не превышали 1 GB. Также есть ограничение на размер файлов — до 100 MB. Альтернатива GitLab. По умолчанию GitLab позволяет репозиториям быть размером до 10 GB бесплатно.
Основные Команды Git
git initинициализирует новыйGitрепозиторий. Эта команда создаёт новую папку.git, которая содержит все необходимые файлы репозитория.git clone [url]клонирует репозиторий из существующего URL. Это обычный способ получить копию существующего репозитория.git add [file]добавляет файлы в индекс для следующего коммита. Можно использоватьgit add .для добавления всех изменённых файлов.git commit -m "сообщение"фиксирует изменения в репозитории с определённым сообщением. Сообщение коммита должно кратко описывать произведённые изменения.git statusпоказывает состояние рабочего каталога и индекса. Это может включать изменённые, добавленные, удалённые или не отслеживаемые файлы.git push [remote] [branch]отправляет изменения из локальной ветки в удалённый репозиторий.[remote]обычно является origin, а[branch]- названием ветки.git pull [remote]получает изменения с удалённого репозитория и автоматически сливает их с текущей веткой.git branch [branch-name]создаёт новую ветку.git checkout [branch-name]переключается на указанную ветку.git merge [branch]сливает указанную ветку с текущей веткой.
Рабочий процесс Git
Рабочий процесс в Git из локального репозитория на сервер обычно включает следующие шаги:
- Инициализация:
git initили клонирование репозитория:git clone [url] - Работа над изменениями с файлами в вашем локальном рабочем каталоге.
- Индексация изменений с помощью
git add . - Коммит изменений. Фиксация изменений в репозитории с помощью
git commit -m "сообщение". - Отправка изменений в удалённый репозиторий с помощью
git push.
Рабочий процесс в Git с сервера в локальный репозиторий обычно включает следующие шаги:
- Проверка текущего состояния сервера
git status - Получение изменений
git pull
Понимание этих основ и команд Git является ключевым для эффективного управления версиями и совместной работы в проектах программного обеспечения.
Применение Git в Data Science
Инструмент мощный, универсальный и позволяет управлять версиями кода и изменениями в проекте.
- Data Science часто требует совместной работы множества специалистов, включая аналитиков данных, инженеров по данным и разработчиков.
Gitпозволяет всем участникам проекта работать совместно над кодом, документацией и экспериментами, обеспечивая при этом целостность и историю всех изменений. - С помощью
Gitможно легко возвращаться к предыдущим состояниям проекта, что значительно упрощает процесс отладки и исследования причин проблем. Если модель внезапно перестает работать должным образом, можно использоватьGitдля сравнения текущей версии с работающими версиями. - Документация — критически важный элемент любого Data Science проекта.
Gitпозволяет управлять документацией так же, как и кодом, обеспечивая её актуальность и доступность для всех членов команды. - Continuous
Integration (CI)иContinuous Deployment (CD)— практики, которые могут автоматизировать тестирование и развертывание моделей и кода.Gitявляется центральным компонентом вCI/CD, так как изменения в репозитории могут автоматически запускать процессы тестирования и развертывания.
Внедрение Git в рабочий процесс Data Science может значительно повысить эффективность проектов, упростить коллаборацию и обеспечить надежное управление версиями проектов.
Упражнения
- Настроить гит репозиторий;
- В файл README.md добавить описание задания;
- Разместить там первое дз;
- Ссылку скинуть в вайбер/телеграм.