Вычислить среднее для каждой колонки таблицы iris, за исключением колонки “Species” и соберите результат в список (list).
Вычислить среднее для каждой строки, исключив перед этим колонку “Species” и сохраните результат в векторе.
Создайте случайные 1000 нуклеотидов, сохранив их в вектор DNA, посчитайте количество нуклеотидов A и T, их долю от общей длинны ДНК и запишите результат в вектор ‘dna_at’
Создайте векто в котором записан произвольный набор латинских букв длинной не менее 10000 символов и посчитайте количество гласных.
Отсортируйте все виды в таблице iris по средней длинне лепестков. Результат должен быть фактором с градациями в виде имен видов с правильной последовательностью уровней.
Напишите функцию для рассчета медианы вектора самостоятельно.
Постройте график зависимости длины чашелистиков от длинны лепестков для каждого вида из таблицы iris
По данным таблицы ‘diamonds’(пакет ggplot2 ) почитайте среднюю стоимость цены карата для бриллиантов дороже 1000$ для каждой категории яркости (clarity).
Написать собственную функцию, которая бы для двух векторов одинакового объема считала бы коэффициент корелляции Спирмена \(r = 1 - \frac{6\sum_{i=1}^N d^2}{n(n^2 - 1)}\). Для получения рангов ипользуйте функцию rank. Дополнительные балы для тех, кто сможет исользовать функцую match вместо rank.
Используя данные по ссылке, постройте оптимальную линейную модель множественной регрессии для co2_flux используя только данные летних месяцев. В данных вместо значения NA используется значения -9999, исправьте это действием подобным data[data == -9999] = NA. Для выбора нужных суток используйте переменную DOY - день года (1 января - DOY = 1)
Исользуя пример ниже, где для столицы 71 региона скачиваются все имеющиеся климатические данные(ежедневные осадки и среднедневные температуры) для 20 близлежайших метеостанций, рассчитайте урожайность для указанного вам региона (координаты столицы найдите самостоятельно) по приведенным ниже уравнениям.
Внимание все переменные в скачаных данных представлены в десятых долях единиц.
library(tidyverse)
library(rnoaa)
#station_data = ghcnd_stations() #Может занять несколько минут лучше выполнить один раз в месте с хорошим интернетом и сохранить результат
station_data = read.csv("station_data.csv")
#После получения всписка всех станций, получите список станций ближайших к столице вашего региона,создав таблицу с именем региона и координатами его столицы
tula = data.frame(id = "TULA", latitude = 54.186806, longitude = 37.617995)
tula_around = meteo_nearby_stations(lat_lon_df = tula, station_data = station_data,
limit = 20, var = c("PRCP", "TAVG"),
year_min = 2008, year_max = 2018)
#tula_around это список единственным элементом которого является таблица, содержащая идентификаторы метеостанций отсортированных по их
# удалленности от Тулы, очевидно что первым элементом таблицы будет идентификатор метеостанции Тулы, его то мы и попытаемся получить
tula_id = tula_around[["TULA"]][["id"]][1]
#Для получения всех данных с метеостанции, зная ее идентификатор, используйте след. команду
all_tula_data = meteo_tidy_ghcnd(stationid = tula_id)
Урожайность рассчитывается как \(Y_j=10^6*\sum_{ }^{ }\frac{(F_i*d_i)*K_f}{(Q_j*L_j(100-E_j))}\)
где:
\(F_i=a_{fi}+b_{fi}*y*(S_{t>5℃})\)
где: \(y = 1,0\) – коэффициент для экпозиции склона - считаем что все поля идеально ровные;
\(a_{fi}\) – константа, берется из табл. 1.;
\(b_{fi}\) – константа, берется из табл. 1.;
\(d_i\) – отношение числа дней i-го месяца, входящих в период вегетации культуры, к общему числу дней в месяце, берется из табл. 1
\(K_f\) – коэффициент использования ФАР посевом - 300;
\(Q_j\) – калорийность урожая культуры - 1600 ;
\(L_j\) – коэффициент «Сумма частей основной и побочной продукции - 2,2;
\(E_j\) – коэффициент «Стандартная влажность культуры» - 25;
\(i = \{1; 12\}\) – номер месяца (апрель -№4, май - №5…);
\(S_{t>5°C}\) – сумма температур больше 5°C за i-ый месяц - находите самостоятельно по климатическим данным
m | afi | bfi | di |
---|---|---|---|
1 | 0.00 | 0.00 | 0.00 |
2 | 0.00 | 0.00 | 0.00 |
3 | 0.00 | 0.00 | 0.00 |
4 | 32.11 | 11.30 | 0.33 |
5 | 26.31 | 9.26 | 1.00 |
6 | 25.64 | 9.03 | 1.00 |
7 | 23.20 | 8.16 | 1.00 |
8 | 18.73 | 6.59 | 0.32 |
9 | 16.30 | 5.73 | 0.00 |
10 | 13.83 | 4.87 | 0.00 |
11 | 0.00 | 0.00 | 0.00 |
12 | 0.00 | 0.00 | 0.00 |
Данные для выполнения второго задания находятся по ссылке
ВНИМАНИЕ! Для успешного решения задачи внимательно прочитайте раздел “Рандомизация и бутстреп”, подтему “Методы геостатистики” !
В качестве третьего задания вам предлагается расширить свое задания №1 и посчитать не среднюю урожайность региона, а суммарный потенциальный урожай региона, рассчитанный из пространственных климатических данных методом ординарного кригинга, с разрешением в 0.1 градуса.