Diferencias entre las revisiones 98 y 99

Robot Vision 2012

Experimentos realizados para la 4º edición de la competencia 'Robot Vision Challenge - ImageCLEF'.

Robot Vision 2012 Web Site

Tareas

experimentos con pirámides espaciales
usar el detector de transiciones con NGAUSS=64, 128 y 256
buscar implementaciones y evaluar descriptores RGBD
ver algunos descriptores de colores

Cosas que vamos a tener que probar

Aumentar los conjuntos de datos con la versión espejada de las imágenes
Algún pre-procesamiento para estabilizar el "motion blur" y el "flickering"
- Debluring:
  - http://www.di.ens.fr/willow/research/deblurring/ (código en matlab)
  - http://grail.cs.washington.edu/projects/mdf_deblurring/
- Flickering: se puede probar trabajar en aglún espacio de color que sea robusto frente a cambios afines en la iluminación
Descriptores de colores
- J. van de Weijer, C. Schmid, J. Verbeek, D. Larlus, Learning Color Names for Real-World Applications, IEEE TIP, 2009.
  http://lear.inrialpes.fr/people/vandeweijer/color_names.html
- K. van de Sande, T. Gevers and C. Snoek, Evaluating Color Descriptors for Object and Scene Recognition, IEEE TPAMI, 2010
  http://koen.me/research/colordescriptors

Datasets

El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.

Las imágenes corresponden a las habitaciones

Comparación de los set

Imágenes de ejemplo

En training1 el recorrido del robot es contrario al caso de training[23].
Las imágenes de training3 son tomadas de noche

Training1

Training2

Training3

Repositorio con los scripts para replicar los experimentos

hg clone https://proyectos.ciii.frc.utn.edu.ar/hg/robot_vision_2012

Estructura de directorios

RobotVision2012/DS_..._DSIFT_.../
- trainingX/
  
  trainingX.log
  
  trainingX_lr/
  
  trainingX_lr.log
  
  _PCA_/
  - subspace.dat
    
    subspace.log
    
    80D/
    - trainingX/
      
      trainingX.log
      
      trainingX_lr/
      
      trainingX_lr.log
      
      _GMM_/
      - u64.gmm
        
        u64/
        
        IFV.../
        
        trainingX/
        
        trainingX.log
        
        trainingX_lr/
        
        trainingX_lr.log
        
        _SGD_tr12_te3_/
        
        hinge_20_1e-4/
        
        Corridor.lin
        
        hinge_20_1e-4.training3
        
        hinge_20_1e-4.log

25 abril 2012

Experimento 1

Configuración

Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
PCA: subespacio aprendido sobre training1+training2+training3, D=80
GMM: aprendido sobre training1+training2+training3, para N = 8, 16 y 32
IFV: gradientes resp. medias y varianzas, alpha=0.5, pnorm=2.0
SGD: hinge loss, 20, 50 y 100 iteraciones, lambda = 1e-2, 1e-3 y 1e-4, training sobre training1 y testeando sobre training2. La clasificación se realizo con argmax.

Resultados

	20 iteraciones			50 iteraciones			100 iteraciones
lambda\ngauss	8	16	32	8	16	32	8	16	32
1e-3	1382	1334	1414	1376	1352	1426	1382	1356	1422
1e-4	1462	1422	1466	1462	1400	1478	1462	1396	1476
1e-5	1318	1402	1444	1358	1368	1394	1378	1384	1322

experimento_1_25_abril_2012.txt

26 abril 2012

Experimento 1

Configuración

Igual que el experimento anterior, pero se agrego 64 gaussianas.
SGD: hinge loss, 20 iteraciones, lambda = 1e-4, training sobre training1 o training2 y testeando siempre sobre training3. La clasificación se realizo con argmax y con thr=-0.1.

Resultados

	20 iteraciones, argmax, train1				20 iteraciones, thr=-0.1, train1				20 iteraciones, argmax, train2				20 iteraciones, thr=-0.1, train2
l\ng	8	16	32	64	8	16	32	64	8	16	32	64	8	16	32	64
1e-4	-405	-153	-127	-161	194	362	355	399	-361	-87	1	35	226	421	471	553

experimento_1_train1_val3_argmax_26_abril_2012.txt experimento_1_train1_val3_-0.1_26_abril_2012.txt experimento_1_train2_val3_argmax_26_abril_2012.txt experimento_1_train2_val3_-0.1_26_abril_2012.txt

3 mayo 2012

Experimento 1

Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas. Al final de este experimento se muestra la configuración que resulta más apropiada.

Configuración

SGD LBD=1e-4, 20 iteraciones
Using argmax for classification

Resultados

Flip=0

DSIFT step=8

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-289	29	59	79	185	267	319	445
2,3	1	935	1195	1141	1173	1183	1251	1225	1293
3,1	2	1162	1374	1390	1456	1584	1658	1668	1632
Avg.		603	866	863	903	984	1059	1071	1123

DSIFT step=16

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-161	-9	19	25	225	191	299	371
2,3	1	897	1129	1221	1143	1101	1095	1175	1179
3,1	2	1160	1252	1392	1424	1412	1528	1552	1524
Avg.		632	791	877	864	913	938	1009	1025

Flip=1

DSIFT step=8

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-357	-105	45	59	185	199	233	411
2,3	1	1569	1703	1787	1795	1887	1949	1995	1999
3,1	2	1666	1880	2018	2076	2142	2182	2182	2190
Avg.		959	1159	1283	1310	1405	1443	1470	1533

DSIFT step=16

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-211	11	31	-15	233	149	263	373
2,3	1	1447	1651	1693	1791	1857	1901	1945	1909
3,1	2	1642	1744	1944	2032	2126	2128	2150	2140
Avg.		959	1135	1223	1269	1405	1393	1453	1474

results_3_de_mayo_2012.tar.gz

Configuración: 256 Gaussianas, DSIFT step=8, flip=1

4 mayo 2012

Experimento 1

Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.

Configuración

SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification

Resultados

NGAUSS=256		srange
Tr.	Te.	1.0	0.33	0.5
1,2	3	199	229	221
2,3	1	1949	1949	1945
3,1	2	2182	2180	2180
Avg.		1443	1452	1449

5 mayo 2012

Experimento 1

Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.

Configuración

SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification

Resultados

NGAUSS=256		srange
Tr.	Te.	1.0	0.1	0.33	0.5
1,2	3	199	187	195	171
2,3	1	1949	1975	1945	1965
3,1	2	2182	2154	2166	2180
Avg.		1443	1439	1435	1439

7 mayo 2012

Experimento 1

Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.

Configuración

SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification

Resultados

NGAUSS=64		flip=0		flip=1
Tr.	Te.	aug=0	aug=1	aug=0	aug=1
1,2	3	77	87	257	33
2,3	1	1173	1207	1801	1783
3,1	2	1440	1528	2080	2014
Avg.		897	941	1379	1277

Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.

NGAUSS=64		flip=1
Tr.	Te.	gmm_flip=0	gmm_flip=1
1,2	3	59	257
2,3	1	1795	1801
3,1	2	2076	2080
Avg.		1310	1379

8 mayo 2012

Experimento 1

Configuración

SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification

Resultados

NGAUSS=128		flip=0		flip=1
Tr.	Te.	aug=0	aug=1	aug=0	aug=1
1,2	3	191	115	195	39
2,3	1	1189	1255	1887	1905
3,1	2	1582	1618	2132	2098
Avg.		987	996	1405	1347

9 mayo 2012

Experimento 1

Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).

Configuración

SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification

Resultados

NGAUSS=64		flip=0			flip=1
Tr.	Te.	spyr=0	spyr=1	spyr=2	spyr=0	spyr=1	spyr=2
1,2	3	77	-413	-41	257	-458	201
2,3	1	1173	1123	1029	1801	1773	1791
3,1	2	1440	1412	1358	2080	2078	2084
Avg.		897	707	782	1379	1122	1359

11 mayo 2012

Experimento 1

Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es colorDescriptor. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.

Configuración

Descriptor: OPP_SIFT, step=16, sampling_scale=1.6
SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0
Using argmax for classification

Resultados

OPPSIFT		flip=0
Tr.	Te.	16	32	64
1,2	3	-231	-173	-17
2,3	1	1161	1217	1221
3,1	2	1538	1598	1664
Avg.		823	881	956

Experimento 2

Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.

Configuración

Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
Descriptor: DSIFT, step=8
SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0

Resultados

Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.

umbral	0.0	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
avg	979.556	1035.44	1072	1095.78	1103.44	1102.67	1088.56	1058.56	1021.11	972.111

Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.

umbral	-1.0	-0.9	-0.8	-0.7	-0.6	-0.5	-0.4	-0.3	-0.2	-0.1	0.0	0.1	0.2
avg	980.444	983.778	996.667	1019.56	1051.67	1095.89	1136.56	1172.44	1185	1166.78	1120.44	1056.67	979.444

Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.

umbral	0.6	0.7	0.8	0.9	1.0	1.1	1.2	1.3	1.4	1.5	1.6	1.7	1.8	1.9	2.0
avg	1050	1123	1139	1139	1137	1131	1128	1123	1120	1118	1111.44	1107	1103	1101	1099

18 mayo 2012

Experimento 1

Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).

Configuración

Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .
Using argmax for classification

Resultados

Resultados para las condiciones que resultaron más favorables, esto es:

cls_sgd_lbd = 1e-4
td_sgd_lbd = 1e-2
cls+td_sgd_lbd = 1e-2
P = 0.75
thr = 0.8

set conf		BL			with TD, P=0.75, thr=0.8
Tr.	Te.	64	128	256	64	128	256
1,2	3	77	191	253	51	175	241
2,3	1	1173	1189	1267	1151	1181	1271
3,1	2	1440	1582	1644	1418	1554	1632
Avg.		897	987	1055	873	970	1048

Resultados para otras condiciones:

cls_sgd_lbd = 1e-4
td_sgd_lbd = 1e-4
cls+td_sgd_lbd = 1e-4
P = 0.75
thr = 0.8

set conf		BL			with TD, P=0.75, thr=0.8
Tr.	Te.	64	128	256	64	128	256
1,2	3	77	191	253	-43	79	165
2,3	1	1173	1189	1267	1187	1075	1121
3,1	2	1440	1582	1644	1266	1424	1540
Avg.		897	987	1055	803	859	942

En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:

ngauss

cls_lbd

td_lbd

td_thr

cls+td_lbd

score

results_18_mayo_2012.tar.gz

29 mayo 2012

Experimento 1

Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification

Resultados

set conf		RGB			Depth			Late fusion w=0.5
Tr.	Te.	64	128	256	64	128	256	64	128	256
1,2	3	77	191	253	23	159	349	433	599	681
2,3	1	1189	1199	1285	431	465	541	1031	1089	1069
3,1	2	1462	1592	1648	1108	1206	1226	1772	1822	1862
Avg.		909	994	1062	521	610	705	1079	1170	1204

30 mayo 2012

Experimento 1

Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.

Configuración

Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0
Using argmax for classification

Resultados

set conf		image_presc=0.5				image_presc=1.0
Tr.	Te.	64	128	256	512	64	128	256	512
1,2	3	23	159	349		-335	7	203	309
2,3	1	431	465	541		465	571	609	617
3,1	2	1108	1206	1226		1116	1194	1226	1272
Avg.		521	610	705		415	591	679	733

Experimento 2

Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification
Late fusion: w=0.5

Resultados

set conf		Late fusion image_presc=0.5 w=0.5				Late fusion image_presc=1.0 w=0.5
Tr.	Te.	64	128	256	512	64	128	256	512
1,2	3	433	599	681		249	527	687	685
2,3	1	1031	1089	1069		1041	1083	1103	1091
3,1	2	1772	1822	1862		1766	1828	1890	1850
Avg.		1079	1170	1204		1018	1146	1227	1209

31 mayo 2012

Experimento 1

Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.

Configuración

Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification

Resultados

set conf		step=8	step=4
Tr.	Te.	256	256
1,2	3	349	357
2,3	1	541	573
3,1	2	1226	1266
Avg.		705	732

Experimento 2

Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification
Late fusion: w=0.5

Resultados

set conf		Late fusion step=4	Late fusion step=8
Tr.	Te.	256	256
1,2	3	755	681
2,3	1	1113	1069
3,1	2	1878	1862
Avg.		1249	1204

1 junio 2012

Experimento 1

Late fusion sobre RGB y Depth ambos con flip=1.

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Late fusion: w=0.5

Resultados usando argmax

set conf		RGB			Depth			LF w=0.5
Tr.	Te.	256	512	1024	256	512	1024	256	512	1024
1,2	3	239	269	339	511	489	609	757	815	921
2,3	1	2013	1991	2019	1403	1429	1461	1985	1981	1997
3,1	2	2174	2182	2186	1548	1564	1598	2096	2098	2116
Avg.		1475	1481	1515	1154	1161	1223	1613	1631	1678

Resultados usando un thr y no argmax

Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

set conf		argmax			thr=-0.4			thr=-0.5			thr=-0.6
Tr.	Te.	256	512	1024	256	512	1024	256	512	1024	256	512	1024
1,2	3	757	815	921	868	927	989	897	968	1054	896	947	1047
2,3	1	1985	1981	1997	1990	2002	1998	2014	2015	2001	2010	1997	2003
3,1	2	2096	2098	2116	2076	2084	2116	2096	2102	2115	2094	2096	2114
Avg.		1613	1631	1678	1645	1671	1701	1669	1695	1723	1667	1680	1721

4 junio 2012

Experimento 1

Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.

Configuración

Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Using argmax for classification

Resultados usando argmax

set conf		step=4, img_presc=0.5			step=8, img_presc=1.0
Tr.	Te.	256	512	1024	256	512	1024
1,2	3	275	411	491	239	269	339
2,3	1	1941	1945	1969	2013	1991	2019
3,1	2	2150	2158	2154	2174	2182	2186
Avg.		1455	1505	1538	1475	1481	1515

Experimento 2

Late fusion sobre RGB y Depth ambos con flip=1.

Configuración

Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Late fusion: w=0.5

Resultados usando argmax

set conf		RGB			Depth			LF w=0.5
Tr.	Te.	256	512	1024	256	512	1024	256	512	1024
1,2	3	275	411	491	511	489	609	835	897	965
2,3	1	1941	1945	1969	1403	1429	1461	1947	1961	1941
3,1	2	2150	2158	2154	1548	1564	1598	2050	2078	2094
Avg.		1455	1505	1538	1154	1161	1223	1611	1645	1667

Resultados usando un thr y no argmax

Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

set conf		argmax			thr=-0.5
Tr.	Te.	256	512	1024	256	512	1024
1,2	3	835	897	965	959	1084	1107
2,3	1	1947	1961	1941	1969	1997	1958
3,1	2	2050	2078	2094	2042	2074	2101
Avg.		1611	1645	1667	1657	1718	1722

13 junio 2012

Experimento 1

Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.

Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.

Configuración

Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1
Late fusion: w=0.5
Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
- MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
- MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
- MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
- MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
- La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.

None: Vision/ProyectosVision/RobotVision2012 (última edición 2013-08-10 22:52:45 efectuada por Jaarac)

-  ⇤ ← Versión 98 con fecha 2012-06-04 13:04:32 → 
  Tamaño: 28615
  Editor: Jaarac
  Comentario:
+   ← Versión 99 con fecha 2012-06-13 17:49:14 → ⇥
  Tamaño: 30656
  Editor: Jaarac
  Comentario:
-Los textos eliminados se marcan así.
+Los textos añadidos se marcan así.
 Línea 596:
+== 13 junio 2012 ==
=== Experimento 1 ===
Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.

Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1

 * Late fusion: w=0.5

 * Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
  * MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
  * MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
  * MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
  * MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
  * La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.

Buscar

Herramientas

Robot Vision 2012

Tareas

Cosas que vamos a tener que probar

Datasets

Imágenes de ejemplo

Training1

Training2

Training3

Repositorio con los scripts para replicar los experimentos

Estructura de directorios

25 abril 2012

Experimento 1

Configuración

Resultados

26 abril 2012

Experimento 1

Configuración

Resultados

3 mayo 2012

Experimento 1

Configuración

Resultados

Flip=0

Flip=1

4 mayo 2012

Experimento 1

Configuración

Resultados

5 mayo 2012

Experimento 1

Configuración

Resultados

7 mayo 2012

Experimento 1

Configuración

Resultados

8 mayo 2012

Experimento 1

Configuración

Resultados

9 mayo 2012

Experimento 1

Configuración

Resultados

11 mayo 2012

Experimento 1

Configuración

Resultados

Experimento 2

Configuración

Resultados

18 mayo 2012

Experimento 1

Configuración

Resultados

29 mayo 2012

Experimento 1

Configuración

Resultados

30 mayo 2012

Experimento 1

Configuración

Resultados

Experimento 2

Configuración

Resultados

31 mayo 2012

Experimento 1

Configuración

Resultados

Experimento 2

Configuración

Resultados

1 junio 2012

Experimento 1

Configuración

Resultados usando argmax

Resultados usando un thr y no argmax