Введение в R

  1. Вычислить среднее для каждой колонки таблицы iris, за исключением колонки “Species” и соберите результат в список (list).

  2. Вычислить среднее для каждой строки, исключив перед этим колонку “Species” и сохраните результат в векторе.

  3. Создайте случайные 1000 нуклеотидов, сохранив их в вектор DNA, посчитайте количество нуклеотидов A и T, их долю от общей длинны ДНК и запишите результат в вектор ‘dna_at’

  4. Создайте векто в котором записан произвольный набор латинских букв длинной не менее 10000 символов и посчитайте количество гласных.

  5. Отсортируйте все виды в таблице iris по средней длинне лепестков. Результат должен быть фактором с градациями в виде имен видов с правильной последовательностью уровней.

  6. Напишите функцию для рассчета медианы вектора самостоятельно.

  7. Постройте график зависимости длины чашелистиков от длинны лепестков для каждого вида из таблицы iris

  8. По данным таблицы ‘diamonds’(пакет ggplot2 ) почитайте среднюю стоимость цены карата для бриллиантов дороже 1000$ для каждой категории яркости (clarity).

Регрессионный и корелляционный анализы

  1. Написать собственную функцию, которая бы для двух векторов одинакового объема считала бы коэффициент корелляции Спирмена \(r = 1 - \frac{6\sum_{i=1}^N d^2}{n(n^2 - 1)}\). Для получения рангов ипользуйте функцию rank. Дополнительные балы для тех, кто сможет исользовать функцую match вместо rank.

  2. Используя данные по ссылке, постройте оптимальную линейную модель множественной регрессии для co2_flux используя только данные летних месяцев. В данных вместо значения NA используется значения -9999, исправьте это действием подобным data[data == -9999] = NA. Для выбора нужных суток используйте переменную DOY - день года (1 января - DOY = 1)

Исользуя пример ниже, где для столицы 71 региона скачиваются все имеющиеся климатические данные(ежедневные осадки и среднедневные температуры) для 20 близлежайших метеостанций, рассчитайте урожайность для указанного вам региона (координаты столицы найдите самостоятельно) по приведенным ниже уравнениям.

Внимание все переменные в скачаных данных представлены в десятых долях единиц.

library(tidyverse)
library(rnoaa)
#station_data = ghcnd_stations() #Может занять несколько минут лучше выполнить один раз в месте с хорошим интернетом и сохранить результат
station_data = read.csv("station_data.csv")
#После получения всписка всех станций, получите список станций ближайших к столице вашего региона,создав таблицу с именем региона и координатами его столицы
tula = data.frame(id = "TULA", latitude = 54.186806,  longitude = 37.617995)
tula_around = meteo_nearby_stations(lat_lon_df = tula, station_data = station_data,
                       limit = 20, var = c("PRCP", "TAVG"),
                       year_min = 2008, year_max = 2018)
#tula_around это список единственным элементом которого является таблица, содержащая идентификаторы метеостанций отсортированных по их 
# удалленности от Тулы, очевидно что первым элементом таблицы будет идентификатор метеостанции Тулы, его то мы и попытаемся получить
tula_id = tula_around[["TULA"]][["id"]][1]
#Для получения всех данных с метеостанции, зная ее идентификатор, используйте след. команду
all_tula_data = meteo_tidy_ghcnd(stationid = tula_id)

Урожайность рассчитывается как \(Y_j=10^6*\sum_{ }^{ }\frac{(F_i*d_i)*K_f}{(Q_j*L_j(100-E_j))}\)

где:

\(F_i=a_{fi}+b_{fi}*y*(S_{t>5℃})\)

где: \(y = 1,0\) – коэффициент для экпозиции склона - считаем что все поля идеально ровные;

\(a_{fi}\) – константа, берется из табл. 1.;

\(b_{fi}\) – константа, берется из табл. 1.;

\(d_i\) – отношение числа дней i-го месяца, входящих в период вегетации культуры, к общему числу дней в месяце, берется из табл. 1

\(K_f\) – коэффициент использования ФАР посевом - 300;

\(Q_j\) – калорийность урожая культуры - 1600 ;

\(L_j\) – коэффициент «Сумма частей основной и побочной продукции - 2,2;

\(E_j\) – коэффициент «Стандартная влажность культуры» - 25;

\(i = \{1; 12\}\) – номер месяца (апрель -№4, май - №5…);

\(S_{t>5°C}\) – сумма температур больше 5°C за i-ый месяц - находите самостоятельно по климатическим данным

Таблица 1
m afi bfi di
1 0.00 0.00 0.00
2 0.00 0.00 0.00
3 0.00 0.00 0.00
4 32.11 11.30 0.33
5 26.31 9.26 1.00
6 25.64 9.03 1.00
7 23.20 8.16 1.00
8 18.73 6.59 0.32
9 16.30 5.73 0.00
10 13.83 4.87 0.00
11 0.00 0.00 0.00
12 0.00 0.00 0.00

для группы ДВ120

  1. Алдошкин Данила Андреевич— для региона 8 рассчитайте урожайность пшеницы в 2000 году, взяв для рассчета средние суммы активных температур за предыдущие 7 лет, с 10 ближайших метеостанций но убирая из рассчета активных температур дни с температурой выше 27 градусов
  2. Кулешов Александр Васильеви— для региона 57 рассчитайте урожайность пшеницы в 2005 году, взяв для рассчета средние суммы активных температур за предыдущие 10 лет, с метеостанций в радиусе не более 90 кмч
  3. Майрамбек уулу Суйунбек — для региона 48 рассчитайте урожайность пшеницы в период с 2005 по 2015 год взяв для рассчета средние суммы активных температур за эти годы, с 8 ближайших метеостанций
  4. Морозов Иван Сергеевич — для региона 68 рассчитайте урожайность пшеницы в 2006 году, взяв для рассчета средние суммы активных температур за текущий год, с 10 ближайших метеостанций но убирая из рассчета активных температур дни с температурой выше 25 градусов
  5. Никитенко Антон Михайлович — для региона 56 рассчитайте урожайность пшеницы в период с 2007 по 2015 год взяв для рассчета средние суммы активных температур за эти годы, с метеостанций на расстоянии от 50 до 250 км
  6. Орлов Михаил Сергеевич — для региона 31 рассчитайте урожайность пшеницы в период с 2000 по 2003 год взяв для рассчета средние суммы активных температур за эти годы, с метеостанций на расстоянии от 60 до 150 км
  7. Рыхлов Михаил Михайлович — для региона 36 рассчитайте урожайность пшеницы в 2010 году, взяв для рассчета средние суммы активных температур за предыдущие 3 года, с 15 ближайших метеостанций
  8. Салик Абдул Садик — для региона 34 рассчитайте урожайность пшеницы в 2009 году, взяв для рассчета средние суммы активных температур за текущий год, с 13 ближайших метеостанций.
  9. Смирнов Владимир Викторович — для региона 61 рассчитайте урожайность пшеницы в 1999 году, взяв для рассчета средние суммы активных температур за предыдущие 2 года, с метеостанций в радиусе не более 100 км
  10. Юркевич Дэниал Дмитриевич— для региона 32 рассчитайте урожайность пшеницы в 2015 году, взяв для рассчета средние суммы активных температур за предыдущие 5 лет, с 11 ближайших метеостанций.

для группы ДВ121

  1. Данилов Кирилл Дмитриевич — для региона 2 рассчитайте урожайность пшеницы в 2016 году, взяв для рассчета средние суммы активных температур за предыдущие 12 лет, с 16 ближайших метеостанций но убирая из рассчета активных температур дни с температурой выше 30 градусов
  2. Евсеенко Анастасия Олеговна — для региона 28 рассчитайте урожайность пшеницы в 2017 году, взяв для рассчета средние суммы активных температур за предыдущие 15 лет, с метеостанций в радиусе не более 120 км
  3. Егунова Дарья Викторовна — для региона 45 рассчитайте урожайность пшеницы в 2014 году, взяв для рассчета средние суммы активных температур за предыдущие 25 лет, с 2 ближайших метеостанций но рассчитав колонку di самостоятельно, как долю месяца, когда среднедневные температуры были выше 7 градусов, но учитывая, что посев не может начаться раньше середины апреля, а вегетация составляет 4 месяца
  4. Журавлев Дмитрий Иванович — для региона 74 рассчитайте урожайность пшеницы в 2012 году, взяв для рассчета средние суммы активных температур за предыдущие 5 лет, с 30 ближайших метеостанций
  5. Назаров Тимур Артемович — для региона 55 рассчитайте урожайность пшеницы в 2013 году, взяв для рассчета средние суммы активных температур за предыдущие 3 года, с метеостанций на расстоянии от 90 до 180 км
  6. Никишина Дарья Александровна — для региона 54 рассчитайте урожайность пшеницы в период с 2010 по 2013 год взяв для расчёта средние суммы активных температур за эти годы, с 25 ближайших метеостанций
  7. Петров Артем Вячеславич — для региона 64 рассчитайте урожайность пшеницы в период с 2002 по 2012 год взяв для рассчета средние суммы активных температур за эти годы, с 18 ближайших метеостанций
  8. Печникова Екатерина Петров— для региона 16 рассчитайте урожайность пшеницы в 2003 году, взяв для рассчета средние суммы активных температур за предыдущие 9 лет, с метеостанций на расстоянии от 70 до 210 кмна
  9. Трифонова Алена Александр— для региона 63 рассчитайте урожайность пшеницы в 2005 году, взяв для рассчета средние суммы активных температур за предыдущие 15 лет, с 19 ближайших метеостанцийовна
  10. Чернобай Артём Георгиевич— для региона 73 рассчитайте урожайность пшеницы в 2011 году, взяв для рассчета средние суммы активных температур за текущий год, с 25 ближайших метеостанций но убирая из рассчета активных температур дни с температурой ниже 10 градусов

Данные для выполнения второго задания находятся по ссылке

для группы ДВ120

  1. Алдошкин Данила Андреевич — создайте модель множественной линейной регрессии дневных потоков углекислого газа за весенний период 2013 года по данным измерений методом турбулентной пульсации
  2. Кулешов Александр Васильевич — создайте модель множественной линейной регрессии дневных потоков углекислого газа за летний период 2013 года по данным измерений методом турбулентной пульсации
  3. Майрамбек уулу Суйунбек — создайте модель множественной линейной регрессии дневных потоков углексилого газа за летний период 2013 года по данным измерений методом турбулентной пульсации
  4. Морозов Иван Сергеевич — создайте модель множественной линейной регрессии потоков паров воды за осенний период 2013 года по данным измерений методом турбулентной пульсации
  5. Никитенко Антон Михайлович — создайте модель множественной линейной регрессии дневных потоков паров воды за весенний период 2013 года по данным измерений методом турбулентной пульсации
  6. Орлов Михаил Сергеевич — создайте модель множественной линейной регрессии дневных потоков паров воды за летний период 2013 года по данным измерений методом турбулентной пульсации
  7. Рыхлов Михаил Михайлович — создайте модель множественной линейной регрессии ночных потоков углекислого газа за период 2013 года по данным измерений методом турбулентной пульсации
  8. Салик Абдул Садик — создайте модель множественной линейной регрессии ночных потоков паров воды за период 2013 года по данным измерений методом турбулентной пульсации
  9. Смирнов Владимир Викторович — создайте модель множественной линейной регрессии дневных потоков углекислого газа за осенний период 2013 года по данным измерений методом турбулентной пульсации
  10. Юркевич Дэниал Дмитриевич — создайте модель множественной линейной регрессии дневных потоков углекислого газа за весенний период 2013 года по данным измерений методом турбулентной пульсации

для группы ДВ121

  1. Данилов Кирилл Дмитриевич — создайте модель множественной линейной регрессии ночных потоков углекислого газа за осенний период 2013 года по данным измерений методом турбулентной пульсации
  2. Евсеенко Анастасия Олеговна — создайте модель множественной линейной регрессии дневных потоков паров воды за весенний период 2013 года по данным измерений методом турбулентной пульсации
  3. Егунова Дарья Викторовна — создайте модель множественной линейной регрессии ночных потоков углекислого газа за летний период 2013 года по данным измерений методом турбулентной пульсации
  4. Журавлев Дмитрий Иванович — создайте модель множественной линейной регрессии ночных потоков углекислого газа за осенний период 2013 года по данным измерений методом турбулентной пульсации
  5. Назаров Тимур Артемович — создайте модель множественной линейной регрессии дневных потоков углекислого газа за весенний период 2013 года по данным измерений методом турбулентной пульсации
  6. Никишина Дарья Александровна — создайте модель множественной линейной регрессии дневных потоков углекислого газа за летний период 2013 года по данным измерений методом турбулентной пульсации
  7. Петров Артем Вячеславич — создайте модель множественной линейной регрессии дневных потоков углекислого газа за осенний период 2013 года по данным измерений методом турбулентной пульсации
  8. Печникова Екатерина Петровна — создайте модель множественной линейной регрессии ночных потоков паров воды за период 2013 года по данным измерений методом турбулентной пульсации
  9. Трифонова Алена Александровна — создайте модель множественной линейной регрессии дневных потоков паров воды за период 2013 года по данным измерений методом турбулентной пульсации
  10. Чернобай Артём Георгиевич — создайте модель множественной линейной регрессии ночных потоков углекислого газа за период 2013 года по данным измерений методом турбулентной пульсации

ВНИМАНИЕ! Для успешного решения задачи внимательно прочитайте раздел “Рандомизация и бутстреп”, подтему “Методы геостатистики” !

В качестве третьего задания вам предлагается расширить свое задания №1 и посчитать не среднюю урожайность региона, а суммарный потенциальный урожай региона, рассчитанный из пространственных климатических данных методом ординарного кригинга, с разрешением в 0.1 градуса.